生成 - 智狐AI导航

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目，包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识，支持超过50种语言；CosyVoice则专注于自然语音生成，支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景，其相关模型和代码已公开发布。

AI项目与工具 2025年06月12日 66 点赞 0 评论 574 浏览

AiSofiya

Sofiya是一款由人工智能驱动的文本到语音转换器，可以快速准确地将文本合成为超过135种语言和方言的自然语音。它支持多种音频格式和频率，并有一个强大的声音工作室，以合并和增强...

Ai语音工具 1970年01月01日 0 点赞 0 评论 574 浏览

TheoremExplainAgent

TheoremExplainAgent（TEA）是一款基于多模态技术的AI工具，可生成超过5分钟的数学与科学定理解释视频，涵盖多个STEM领域。它结合文本、动画和语音，提升抽象概念的理解效果，并具备自动错误诊断功能。通过TheoremExplainBench基准评估，TEA在准确性、逻辑性和视觉表现上均表现优异，适用于在线教育、课堂教学和学术研究等多种场景。

AI项目与工具 2025年06月12日 13 点赞 0 评论 574 浏览

InstructMove

InstructMove是由东京大学与Adobe合作开发的图像编辑模型，基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务，同时支持精确的局部编辑。该模型采用真实视频数据训练，提升编辑自然性与真实性，适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型，结合掩码和ControlNet等控制机制，实现灵活高效的图像编辑。

AI项目与工具 2025年06月12日 21 点赞 0 评论 574 浏览