语音识别

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具,支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道,分别涵盖16个和20个数据集,覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标,提供简单易用的评估流程,并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

Microsoft Dragon Copilot

Microsoft Dragon Copilot 是一款专为医疗行业设计的AI语音助手,结合语音识别与环境感知技术,支持多语言语音输入、自动化任务处理、信息检索等功能。旨在提升临床文档效率、减轻医护人员负担,并优化医疗服务流程。适用于医生、护士、行政人员及其他医疗团队成员,提升工作效率与患者体验。

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型,支持 99 种语言,具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据,适用于会议记录、字幕生成、内容创作等多种场景,广泛应用于教育、客服及媒体领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

Ello

Ello是一款面向4-8岁儿童的AI阅读辅助工具,结合自适应学习系统和语音识别技术,提供个性化的阅读体验。它包含基于科学阅读法的解码电子书、AI实时辅导、互动阅读功能及激励机制,帮助孩子提升阅读能力、增强自信心。适用于家庭、学校及特殊教育场景,支持月度或年度订阅模式。

青梧字幕

青梧字幕是一款基于AI语音识别技术的字幕提取工具,能够从视频中精准提取语音内容并生成时间轴字幕。支持多语言识别、多格式导出及多语种翻译,适用于视频创作者、外语学习者及字幕团队。所有数据处理在本地完成,保障隐私安全,兼容Windows和MacOS系统,提升字幕制作效率。

FoloUp

FoloUp 是一款开源的 AI 语音面试平台,能根据职位描述自动生成面试问题,并通过自然语言交互与候选人进行语音面试。系统支持实时分析、评分与报告生成,提供数据仪表盘用于跟踪候选人表现。平台支持一键分享、远程面试和批量招聘,结合语音识别、NLP 和安全数据管理技术,适用于多种招聘场景,提升招聘效率与质量。

VideoCaptioner

VideoCaptioner是一款基于大语言模型的智能字幕处理工具,支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行,兼容多语言和多种字幕格式,适用于视频创作者、教育工作者及字幕翻译团队,提升字幕制作效率与质量。