语音助手 - 智狐AI导航

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 850 浏览

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具，基于超10万小时播客数据训练，支持零样本语音合成与说话人适配，可在0.33秒内生成1秒音频，适合实时与长内容合成。支持本地部署与API调用，应用于播客、有声书、视频配音、AI角色及新闻播报等领域，兼具高效性与灵活性。

AI项目与工具 2025年06月11日 94 点赞 0 评论 550 浏览

Unmute

Unmute 是 Kyutai 推出的低延迟语音交互系统，专注于语音转文字和文字转语音功能。基于先进 AI 模型，提供实时、高效的语音交互体验，支持用户与 AI 进行语音交流，并能将文字内容快速转换为自然流畅的语音输出。其低延迟处理能力实现无缝交互，具备快速集成、随时打断、10秒生成声音、多样化调整等功能，适用于在线教育、智能客服、语音助手、游戏娱乐和企业会议等场景。

AI项目与工具 2025年06月11日 58 点赞 0 评论 809 浏览

EVI 3是Hume AI推出的全新语音语言模型，能够同时处理文本和语音标记，实现自然、富有表现力的语音交互。它支持高度个性化，根据用户提示生成任何声音和个性，并实时调节情感和说话风格。在与GPT-4o等模型的对比中，EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优，具备低延迟响应能力，可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

AI项目与工具 2025年06月11日 45 点赞 0 评论 788 浏览

Fish Audio

Fish Audio是一款生成式AI文本转语音（TTS）和声音克隆平台，支持多种语言和声音风格，可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音，并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域，满足个性化语音内容生成需求。

AI项目与工具 2025年06月11日 79 点赞 0 评论 537 浏览