AI项目与框架
OpenCodeInterpreter - 开源的代码解释器,可生成和执行代码
OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件开发过程中生成、测试和优化...
GPT-SoVITS - 开源的声音克隆项目,只需少量数据即可合成声音
GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...
VideoPrism - 谷歌研究团队推出的通用视频编码器
VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能...
YOLOv9 - 新一代高效的实时目标检测系统
YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队推出的新一代先进的目标检测系统,是YOLO(You Only Look Once)算法系列的最新版本。YOLOv9在前代...
ScreenAgent - 基于视觉语言模型的计算机控制智能体
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。Scr...
ConsiStory - 免训练实现主题一致性的文生图方法
ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下,遵循不同的文本...
Stable Diffusion 3 - Stability AI推出的新一代图像生成模型
Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通过文本提示生成高质量的图像。...
SDXL-Lightning - 字节跳动推出的文本到图像生成模型
SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术,旨在解决传统扩散模型在图像生成速度和计算成本上的局限性。该模型基于 ...
VideoPoet - 谷歌推出的AI视频生成模型
VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频。VideoPoet的核...
DiT - 基于Transfomer架构的扩散模型
DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之一) 与纽约大学助理教授谢赛宁提出,结合了去噪扩散概率模型(...