Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

AI项目与框架2年前 (2024)发布 slz

982 0 0

Vidu是什么

Vidu是中国首个长时长、高一致性、高动态性的视频大模型，由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构，结合Diffusion与Transformer技术，能够一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界，具备丰富的想象力，支持多镜头生成，保持时空一致性，效果接近Sora，代表了中国在视频大模型领域的技术突破。

Vidu的主要功能

文本到视频生成：用户可以通过输入简单的文本提示，快速生成长达16秒的高清视频内容，大大降低了视频制作的技术门槛，使得非专业用户也能轻松制作出高质量的视频。
高分辨率输出：Vidu支持生成分辨率高达1080P的视频，生成的视频具有非常清晰的画质，适合在各种高清显示设备上播放。
多镜头生成能力：Vidu支持同时生成多个镜头视角的视频，能够制作出类似于电影或电视剧中常见的多镜头切换效果，增加了视频的动态感和观赏性。
模拟真实世界：Vidu能够模拟真实世界的物理特性，如物体的运动、光影的变化等，使得生成的视频内容更加逼真。
保持时空一致性：在生成多镜头视频时，Vidu能够保证不同镜头之间的时空关系是连贯的，避免了不同镜头之间出现时空错乱的情况。
丰富的想象力：除了模拟现实世界，Vidu还具备丰富的想象力，能够创造出新颖的视频内容，满足用户在创意表达上的需求。
多模态融合能力：虽然目前Vidu主要聚焦于视频内容的生成，但基于其多模态大模型的特性，未来它有望整合文本、图像等多种模态的信息，生成更加丰富和立体的视频内容。

Vidu - 生数科技发布的视频大模型，可生成16秒1080P的视频

Vidu的技术架构

Diffusion技术：Diffusion是一种生成模型技术，它通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。
Transformer架构：Transformer是一种深度学习模型，最初用于自然语言处理任务，因其强大的性能和灵活性，后来被广泛应用于计算机视觉等领域。Vidu结合了Transformer架构来处理视频数据。
U-ViT架构：U-ViT是Vidu技术架构的核心，是一种将Diffusion与Transformer融合的创新架构。U-ViT由生数科技团队提出，是全球首个此类融合架构，它结合了Diffusion模型的生成能力和Transformer模型的感知能力。
多模态扩散模型UniDiffuser：UniDiffuser是生数科技基于U-ViT架构开发的多模态扩散模型，它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。
长视频表示与处理技术：Vidu在U-ViT架构的基础上，进一步突破了长视频表示与处理的关键技术，这使得Vidu能够生成更长、更连贯的视频内容。
贝叶斯机器学习：贝叶斯机器学习是一种统计学习方法，它通过贝叶斯定理来更新模型的概率估计。Vidu在开发过程中，团队利用了贝叶斯机器学习的技术来优化模型性能。