Reverb ASR是由Rev公司开发的一款开源自动语音识别与说话人分离模型,基于超过20万小时的人类转录英语语音数据进行训练。该模型在长音频识别领域表现出色,尤其适用于播客、财报电话会议等复杂场景。Reverb ASR允许用户灵活调整输出文本的逐字程度,从完全逐字到非逐字风格均可实现,以满足精确转录与提高可读性的多样化需求。此外,Reverb ASR提供了多种解码模式,包括注意力解码和CTC前缀束搜索,能够适应不同类型的识别任务。相较于现有开源模型,如OpenAI的Whisper和NVIDIA的Canary-1B,Reverb ASR在长篇幅语音识别方面具有明显优势。
发表评论 取消回复