模型 - 智狐AI导航

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于200万小时音频数据训练，支持13种语言。采用双自回归架构和RLHF技术，生成自然流畅的语音，支持50多种情感和语调标记。具备零样本和少样本语音克隆功能，仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版，满足

AI项目与工具 2025年06月11日 28 点赞 0 评论 641 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 641 浏览

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具，能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略，结合面部专注的交叉注意力模块和运动强度调制模块，实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态，适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

AI项目与工具 2025年06月11日 83 点赞 0 评论 640 浏览

SeaArt.Ai

一款高效且用户友好的AI绘图工具，即使没有专业技能，您也可以立即成为艺术家。

Ai绘画生成 2025年06月05日 28 点赞 0 评论 640 浏览

BLOOM

HuggingFace推出的大型语言模...

Ai平台模型 2026年06月14日 0 点赞 0 评论 639 浏览

RoboBrain

RoboBrain是由智源研究院开发的开源具身大脑模型，支持任务规划、可操作区域感知和轨迹预测等功能。其基于LLaVA框架，采用多阶段训练策略，具备高分辨率图像处理和长历史帧记忆能力。适用于多机器人协作、复杂任务执行及实时优化场景，依托ShareRobot数据集提升模型性能，广泛应用于机器人操作领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 639 浏览

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 639 浏览

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库，它为广泛的研究任务提供了丰富的数据和高质量的注释。

创作工具 2026年06月14日 0 点赞 0 评论 639 浏览

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 638 浏览

Eino

Eino是由字节跳动开源的大模型应用开发框架，采用Go语言构建，具备组件化设计、图编排引擎、流式处理和回调机制等功能，支持高效构建复杂AI应用。其可视化开发工具EinoDev降低了开发门槛，适用于智能客服、知识管理、内容创作等多种场景，具备高扩展性和良好的性能表现。

AI项目与工具 2025年06月12日 56 点赞 0 评论 638 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期