4月27日的最新消息来自中关村论坛未来人工智能先锋论坛,生数科技与清华大学联手发布了中国第一个长时长、高一致性、高动态性的视频大模型——「Vidu」。
这个模型采用了团队原创的U-ViT架构,将Diffusion和Transformer相融合。支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅可模拟真实物理世界,还具备丰富的想象力,包括多镜头生成和高度时空一致性等特点。自Sora发布后,Vidu是全球首个取得重大突破的视频大模型,性能全面对标国际顶尖水平,并持续在加速迭代中提升。
Vidu团队的快速发展,得益于在贝叶斯机器学习和多模态大型模型方面长期积累的成果和独创性思路。团队提出的核心技术U-ViT架构早在2022年9月便问世,早于Sora团队采用的DiT架构,成为全球首个将Diffusion与Transformer相结合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了对U-ViT架构的大规模可扩展性验证。
依托对U-ViT架构的深刻理解和长期的工程与数据积累,团队在短短两个月的时间内取得了重要进展,成功突破了长视频表示与处理的多个关键技术,成功开发了Vidu视频大型模型,明显提高了视频的连贯性和动态表现。
Vidu的推出不仅成功证明了U-ViT融合架构在大规模视觉任务中的有效性,也展示了生数科技在多模态原生大模型领域持续创新和领先的能力。作为一款通用视觉模型,Vidu可以生成更多样化、更长的视频内容,而且未来的灵活架构将支持更广泛的模态,进一步扩展多模态通用能力的边界。