语音识别 - 智狐AI导航

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型，具备 8B 参数量，支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异，采用高效的 token 技术提升推理速度，可在端侧设备上运行。支持多种语言和音色配置，适用于智能助手、内容创作、教育、客服和医疗等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 681 浏览

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器，支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能，适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好，操作简便。

AI项目与工具 2025年06月12日 61 点赞 0 评论 688 浏览

TransDuck

翻译+配音的一站式音视频处理解决方案，助力音视频创作者实现自动化的内容出海与内容引进。

字幕配音 2025年06月05日 81 点赞 0 评论 688 浏览

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具，采用20万小时高质量英语语音数据训练，具备高精度语音转录能力，支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容，并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景，为用户提供灵活且高效的语音转文字解决方案。

AI项目与工具 2025年06月12日 55 点赞 0 评论 694 浏览

Gliglish

Gliglish 是一款基于 AI 技术的口语学习平台，通过语音识别和自然语言处理技术，模拟真实对话场景，帮助用户提升口语和听力能力。支持多语言学习，包括英语、中文、日语、韩语、德语、法语等，并提供即时语法和发音反馈。用户可调节对话速度，实现个性化学习。此外，Gliglish 支持多语言语音输入和输出，适合语言初学者及需要强化特定语言技能的学习者。

AI项目与工具 2025年06月12日 98 点赞 0 评论 694 浏览