AI项目与框架 - AI应用导航

Universal-1 - AssemblyAI推出的多语种语音识别和转换模型

Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型，经过超过1250万小时的多语种音频数据训练，支持英语、西班牙语、法语和德语等。

AI项目与框架

2年前 (2024)

CogVLM2是由智谱AI推出的新一代多模态大模型，在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文...

AI项目与框架

2年前 (2024)

Veo是由Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容，能够生成时长超过一分钟1080P分辨率的高质量...

AI项目与框架

2年前 (2024)

混元DiT（Hunyuan-DiT）是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型，具备细粒度的中英文理解能力，能够根据文本提示生成多分辨率的...

AI项目与框架

2年前 (2024)

AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的一个对口型说话视频生成框架，能够将单张静态人像和输入的音频转换成栩栩如生的动...

AI项目与框架

2年前 (2024)

IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具，可以对图片进行光源操纵和光影重构，实现与不同背景的完美融合。用户只需上传图片，选择光...

AI项目与框架

2年前 (2024)

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术，通过对比对齐和快速采样方法，实现了无需调整模型的高效ID定制，轻松实现图像换脸效果。

AI项目与框架

2年前 (2024)

Vidu是中国首个长时长、高一致性、高动态性的视频大模型，由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构，结合Diffusion与Transformer...

AI项目与框架

2年前 (2024)

VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率（VSR）模型，最高可将视频分辨率提升8倍，将模糊的视频放大为具有丰富细节...

AI项目与框架

2年前 (2024)

IDM-VTON是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术，通过改进扩散模型来生成逼真的人物穿戴图像，实现更真实的虚拟试穿效果。

AI项目与框架

2年前 (2024)