FireRedASR简介

FireRedASR是由小红书团队开发的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言及英语。该模型在普通话ASR基准测试中取得了新的最佳性能(SOTA),尤其在歌词识别方面表现突出。模型家族包含两个主要版本:

FireRedASR-LLM:采用Encoder-Adapter-LLM框架,结合大型语言模型(LLM)的能力,实现端到端的高精度语音识别。在普通话基准测试中,平均字符错误率(CER)为3.05%,相较之前最优模型提升了8.4%。

FireRedASR-AED:基于注意力机制的编码器-解码器(AED)架构,兼顾高性能与计算效率,可作为语音模型中的有效表示模块。其在普通话基准测试中的CER为3.18%,优于参数量超过12B的Seed-ASR。

FireRedASR的主要功能

  • 高精度语音识别:FireRedASR提供两种版本,FireRedASR-LLM和FireRedASR-AED,分别针对极致精度和高效推理设计。
  • 高效推理能力:FireRedASR-AED基于经典AED架构,参数量为1.1B,在保持高准确率的同时提升推理效率。
  • 多场景适配:FireRedASR适用于短视频、直播、语音输入和智能助手等多种场景,相比主流ASR服务提供商,识别误差显著降低。
  • 歌词识别优化:FireRedASR-LLM在歌词识别任务中表现出色,相对误差降低了50.2%至66.7%。
  • 多语言支持:支持普通话、中文方言和英语,具备广泛的应用潜力。
  • 开源与社区驱动:模型和代码已开源,便于学术研究和技术推广。

FireRedASR的技术原理

  • FireRedASR-LLM:采用Encoder-Adapter-LLM框架,融合大型语言模型的能力,提升语音识别精度。包含Conformer基础编码器、轻量级适配器和预训练文本LLM三个核心组件。训练过程中,通过LoRA微调方式保留LLM的预训练能力。
  • FireRedASR-AED:基于AED架构,由Conformer编码器和Transformer解码器组成,输入为80维log Mel特征,训练数据涵盖大量高质量普通话和英语音频。

FireRedASR的项目地址

FireRedASR的应用场景

  • 智能语音助手:适用于智能家居控制、智能客服等场景,提升交互体验。
  • 视频与直播:可实时生成字幕,增强内容可访问性。
  • 歌词识别:适用于音乐平台和卡拉OK,提升识别准确性。
  • 语音输入:用于语音打字、语音笔记等场景,提高输入效率。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部