语音识别

星火陪练

星火陪练是一款基于AI技术的企业员工培训平台,集智能配置、自然对话、虚拟陪练及多维评分于一体。其主要功能包括快速生成课程内容、场景模拟对话、沉浸式虚拟陪练以及多维度评价反馈,广泛应用于企业培训、新员工入职、技能提升及在线教育等领域,助力员工高效掌握专业知识与实践技能。

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用,专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能,能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术,支持多种语言,完全离线运行,保障用户隐私安全。

网易见外

网易见外是由网易人工智能事业部研发的AI智能语音转写听翻平台,提供视频听翻、直播听翻、语音转写、文档直翻等功能。

Multi

Multi-Speaker 是 AudioShake 推出的高分辨率多说话人分离工具,支持将音频中不同说话人的语音精准分离至独立轨道,适用于广播级音频处理。它具备高保真音频处理能力,支持高采样率,能处理长达数小时的录音,在复杂场景下仍能保持稳定效果。广泛应用于影视、播客、无障碍服务及内容创作等领域,提升音频编辑效率与质量。

星火语音同传大模型

星火语音同传大模型是科大讯飞推出的国内首个端到端语音同传AI系统,支持37种语言,具备高精度翻译、流式处理、语境理解和语音合成优化等功能。模型可在5秒内完成同传,准确度高,适用于国际会议、商务交流、教育等场景,支持译文长度调节和设备兼容,提升跨语言沟通效率。

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型,具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略,使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景,适用于各类语音交互系统。

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

爱幕字幕编辑器

一款在线免费字幕编辑器,爱幕其核心优势在于提供了全面的字幕处理功能,支持视频转码、语音识别、字幕翻译和一键字幕压制等。

Zeemo.ai

Zeemo,这是一款快速的 AI 字幕工具,可以为您的视频自动生成和翻译字幕。