AI项目与框架
Boximator - 字节推出的控制视频生成中对象运动的框架
Boximator是有字节跳动的研究团队开发的一种视频合成技术,旨在生成丰富且可控的运动,以增强视频合成的质量和控制性。该技术通过引入两种类型的约束框(硬框...
V-JEPA:Meta推出的视觉模型,可以通过观看视频来学习理解物理世界
V-JEPA是由Meta的研究人员推出的一种新型的视频自监督学习方法,它专注于通过特征预测来学习视频的视觉表示。这种方法的核心思想是让模型能够预测视频中一个...
Depth Anything - Tiktok等推出的单目深度估计模型
Depth Anything是由来自Tiktok、香港大学和浙江大学的研究人员推出的一个为单目深度估计设计的深度学习模型,旨在处理各种情况下的图像并估计其深度信息。该...
AnimateDiff - 扩展文生图模型生成动画的框架
AnimateDiff是由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员推出的一款将个性化的文本到图像模型扩展为动画生成器的框架,其核心在于它能够利用...
MotionCtrl - 腾讯等推出的视频生成模型的运动控制器
MotionCtrl是由来自腾讯和香港大学等机构的研究人员推出的一个为视频生成模型设计的统一且灵活的运动控制器,能够独立地控制视频中的相机运动和物体运动视角...
Make-A-Character:阿里开源的AI 3D数字人生成框架
Make-A-Character(简称Mach)是一个由阿里巴巴集团智能计算研究院开发的一个人工智能3D数字人生成框架,旨在通过文本描述快速创建逼真的3D角色。该系统特别...
MetaGPT - 多个AI智能体协作分工的框架
MetaGPT是一个创新的元编程框架,结合了大语言模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序(SOPs)...
DiffusionGPT - 开源的大模型驱动的文本到图像生成系统
DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
OLMo - 艾伦AI研究所开源的完全开放的大语言模型框架
OLMo(Open Language Model)是由Allen AI(AI2,艾伦AI研究所)开发的一个完全开源开放的大型语言模型(LLM)框架,设计初衷是为了通过开放研究,促进学术界...
IP-Adapter - 腾讯开源的文本到图像扩散模型适配器
IP-Adapter(Image Prompt Adapter)是一种专门为预训练的文本到图像扩散模型(如Stable Diffusion)设计的适配器,目的是让文生图模型能够利用图像提示来生...