LOADING STUFF...

Snap Video - Snapchat公司推出的AI视频生成模型

Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段描述性的文本,模型能够根据这段文本生成相...

MeloTTS - MyShell AI推出的多语言文本到语音转换工具

MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语音输出,支持多种语言。MeloTTS 的语音合成速度非...

StarCoder 2 - BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...

EMO - 阿里推出的AI肖像视频生成框架

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语...

ChatMusician - 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成音乐的大型语言模型...

OpenCodeInterpreter - 开源的代码解释器,可生成和执行代码

OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件开发过程中生成、测试和优化...

GPT-SoVITS - 开源的声音克隆项目,只需少量数据即可合成声音

GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...

VideoPrism - 谷歌研究团队推出的通用视频编码器

VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能...

YOLOv9 - 新一代高效的实时目标检测系统

YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队推出的新一代先进的目标检测系统,是YOLO(You Only Look Once)算法系列的最新版本。YOLOv9在前代...

ScreenAgent - 基于视觉语言模型的计算机控制智能体

ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。Scr...
1 19 20 21 22 23 28