Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型,于2024年4月27日在中关村论坛未来人工智能先锋论坛上发布,模型采用团队原创的全球首个Diffusion与Transformer融合的架构U-ViT。
2024年7月,Vidu面向全球上线,核心功能包括参考生视频、图生视频、图生视频。可生成4秒和8秒视频,分辨率最高达1080P。上线百天用户数即破千万,2025年1月15日为止,是全球增速最快的AI视频模型。
Vidu自上线以来就致力于解决“一致性”核心难题,Vidu1.5发布“多图参考”功能,是全球首个发布“多主体一致性”的视频模型。
Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。
2024年4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。
2024年6月6日,Vidu模型能力迭代更新,支持一键生成达32秒的视频、支持音视频生成、支持Vidu4D生成。
2024年7月30日,生数科技自研视频大模型Vidu上线。
2024年9月11日,Vidu全球首发“主体参照”功能,一张照片实现主体可控。
2024年9月25日,Vidu正式开放API。
2024年11月13日,Vidu1.5上线,全球首发“多主体一致性”能力,标志着视觉模型进入全新的“上下文”时代。
2025年1月15日,Vidu2.0上线,推动视频生成走向人人可用的奇点时刻。3月17日晚间,生数科技宣布,旗下视频大模型产品Vidu正式与美国知名动漫制作工作室Aura Productions达成战略合作。
参考生视频:全球首个参考生视频功能,让创作的角色、物体、场景等始终保持一致
图生视频:基于任意图片描述您想象的画面,即刻动态呈现,让您的创意栩栩如生
文生视频:用文字描述您想象的画面,自由表达创意,即刻创作视频
Vidu开放了参考生视频、文生视频、图生视频三大核心功能,提供4s和8s两种时长选择,分辨率最高达1080P。
Vidu在生成速度、一致性、动态性等方面具备领先优势,生成一段4秒视频仅需10秒。
参考生视频
通过上传1-3张参考图,Vidu 1.5可实现对单主体100%的精确控制,同时实现多主体交互控制、主体与场景融合控制,能够无缝集成人物、道具和场景等元素。
动画风格
Vidu可以生成效果优异的动画视频
错峰模式
Vidu支持闲时免费生成视频。