AI语音识别

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器，支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能，适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好，操作简便。

AI项目与工具 2025年06月12日 61 点赞 0 评论 790 浏览

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 872 浏览

BoldVoice

BoldVoice 是一款专注于英语发音训练的工具，结合专业口音课程与AI语音分析技术，帮助非英语母语者提升发音准确性和口语自信。用户可通过录音获得实时反馈与改进建议，并根据个人母语背景定制学习计划。应用还提供发音测试、口音对比和多场景练习功能，适用于职场、考试、日常交流及表演等领域，有效提升英语口语能力。

AI项目与工具 2025年06月12日 100 点赞 0 评论 684 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 750 浏览

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型，支持 99 种语言，具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据，适用于会议记录、字幕生成、内容创作等多种场景，广泛应用于教育、客服及媒体领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 668 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 721 浏览