语音 - 智狐AI导航

Unmute

Unmute 是 Kyutai 推出的低延迟语音交互系统，专注于语音转文字和文字转语音功能。基于先进 AI 模型，提供实时、高效的语音交互体验，支持用户与 AI 进行语音交流，并能将文字内容快速转换为自然流畅的语音输出。其低延迟处理能力实现无缝交互，具备快速集成、随时打断、10秒生成声音、多样化调整等功能，适用于在线教育、智能客服、语音助手、游戏娱乐和企业会议等场景。

AI项目与工具 2025年06月11日 58 点赞 0 评论 630 浏览

MemenomeLM

MemenomeLM是Brainrot AI推出的AI工具，专为Z世代研究人员设计，可将PDF文档、笔记等资料转化为有趣且互动性强的视频内容。具备多模态理解能力，能用简单语言解释复杂概念并提供现实例子，支持生成多种格式的短视频，如Brainrot Quiz、Yap Dollar等，还可添加搞笑音效、生成图片及选择不同语音。

AI项目与工具 2025年06月11日 35 点赞 0 评论 425 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 365 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 480 浏览

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 357 浏览

EVI 3

EVI 3是Hume AI推出的全新语音语言模型，能够同时处理文本和语音标记，实现自然、富有表现力的语音交互。它支持高度个性化，根据用户提示生成任何声音和个性，并实时调节情感和说话风格。在与GPT-4o等模型的对比中，EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优，具备低延迟响应能力，可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

AI项目与工具 2025年06月11日 45 点赞 0 评论 598 浏览

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具，集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能，支持多客户端和多场景应用。基于标准化接口和开源生态，提供高效、灵活的数字生产力解决方案，适用于内容创作、虚拟主播、在线教育等多个领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 375 浏览

Fish Audio

Fish Audio是一款生成式AI文本转语音（TTS）和声音克隆平台，支持多种语言和声音风格，可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音，并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域，满足个性化语音内容生成需求。

AI项目与工具 2025年06月11日 79 点赞 0 评论 332 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 527 浏览

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统，专为企业级应用设计。它基于深度学习技术，能够精确区分语音和非语音信号，具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口，适用于智能助手、客服机器人等场景，帮助构建更高效、更智能的对话系统。

AI项目与工具 2025年06月11日 47 点赞 0 评论 517 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期