语音识别

Scribe

Scribe 是由 ElevenLabs 推出的高精度语音转文本模型,支持 99 种语言,具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据,适用于会议记录、字幕生成、内容创作等多种场景,广泛应用于教育、客服及媒体领域。

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术,帮助用户基于语音转文字的结果,选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面,以及支持多段剪辑和自动生成SRT字幕文件。

Soundwave

Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。

面试狗

AI面试辅助工具是一款面向求职者的智能应用,支持语音识别、智能回答建议、多模式回答及简历关联等功能,帮助用户提升面试与笔试表现。用户可上传简历、截图题目,AI将生成针对性建议。工具支持多种使用方式,记录完整面试对话,便于复盘总结。适用于线上面试、双机位面试、在线笔试等多种场景。

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

Videotoword.ai

Videotoword.ai 是一款以AI驱动的在线服务,支持将音频和视频文件转化为文本,具有高精度(99.9%)和多语言支持(98种以上)。它能处理长达10小时的文件,具备自动转录、文本编辑导出及AI摘要生成功能,广泛应用于教育、媒体、法律和企业等领域。

Nuance

Nuance公司以其在对话式AI领域的专业知识,为医疗保健和客户参与提供创新解决方案。公司致力于通过AI技术推动组织效能,提升工作成效,并在全球范围内产生积极影响。

TEN VAD

TEN VAD是一款高性能的实时语音活动检测系统,专为企业级应用设计。它基于深度学习技术,能够精确区分语音和非语音信号,具有低延迟、轻量级和高精度的特点。支持多种平台和编程接口,适用于智能助手、客服机器人等场景,帮助构建更高效、更智能的对话系统。

VideoCaptioner

VideoCaptioner是一款基于大语言模型的智能字幕处理工具,支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行,兼容多语言和多种字幕格式,适用于视频创作者、教育工作者及字幕翻译团队,提升字幕制作效率与质量。

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。