模型

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型,具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成,适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据,并从美学角度进行图像评价,适合需要高效图像处理和智能交互的应用场景。

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

SeaArt.Ai

一款高效且用户友好的AI绘图工具,即使没有专业技能,您也可以立即成为艺术家。

RoboBrain

RoboBrain是由智源研究院开发的开源具身大脑模型,支持任务规划、可操作区域感知和轨迹预测等功能。其基于LLaVA框架,采用多阶段训练策略,具备高分辨率图像处理和长历史帧记忆能力。适用于多机器人协作、复杂任务执行及实时优化场景,依托ShareRobot数据集提升模型性能,广泛应用于机器人操作领域。

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型,专为高效处理长视频设计。采用混合精度策略,支持在单张A100 GPU上处理长达3小时的视频,提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能,适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能,实现精准且高效的视频分析。

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

PromptBench

一个基于 Pytorch 的 Python 包,用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API,以便对 LLM 进行评估。

Eino

Eino是由字节跳动开源的大模型应用开发框架,采用Go语言构建,具备组件化设计、图编排引擎、流式处理和回调机制等功能,支持高效构建复杂AI应用。其可视化开发工具EinoDev降低了开发门槛,适用于智能客服、知识管理、内容创作等多种场景,具备高扩展性和良好的性能表现。