语音识别

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

面试狗

AI面试辅助工具是一款面向求职者的智能应用,支持语音识别、智能回答建议、多模式回答及简历关联等功能,帮助用户提升面试与笔试表现。用户可上传简历、截图题目,AI将生成针对性建议。工具支持多种使用方式,记录完整面试对话,便于复盘总结。适用于线上面试、双机位面试、在线笔试等多种场景。

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术,帮助用户基于语音转文字的结果,选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面,以及支持多段剪辑和自动生成SRT字幕文件。

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型,支持 99 种语言,具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据,适用于会议记录、字幕生成、内容创作等多种场景,广泛应用于教育、客服及媒体领域。

Loora

Loora是一款AI驱动的英语口语学习工具,通过模拟真实场景帮助用户提升英语表达能力。支持商务、面试、日常交流等多场景练习,提供实时发音、语法及流利度反馈。具备24小时可用性、个性化课程设计、语音识别与翻译功能,并支持学习进度跟踪,适用于各类英语学习者。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。

edge

edge-tts 是一个开源的AI文字转语音项目,支持超过40种语言和300多种声音。该项目利用微软Azure Cognitive Services技术,能够将文本信息转换为流畅自然的语音输出。edge-tts 提供了丰富的语言和声音选择,易于集成且具有高度可定制性。其主要功能包括多语言支持、多样声音选择、流畅自然语音、易于集成的API以及开源特性。edge-tts 广泛应用于辅助技术、客户服务、

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

灵伴科技Rokid

也和称Rokid,2014年成立,总部在杭州,创始人是前阿里巴巴M工作室负责人祝铭明,是一家专注于AI与AR技术的杭州高科技公司。