FireRedASR

简介：FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI小编 755 阅读 0 评论 82 点赞

项目地址

FireRedASR简介

FireRedASR是由小红书团队开发的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言及英语。该模型在普通话ASR基准测试中取得了新的最佳性能（SOTA），尤其在歌词识别方面表现突出。模型家族包含两个主要版本：

FireRedASR-LLM：采用Encoder-Adapter-LLM框架，结合大型语言模型（LLM）的能力，实现端到端的高精度语音识别。在普通话基准测试中，平均字符错误率（CER）为3.05%，相较之前最优模型提升了8.4%。

FireRedASR-AED：基于注意力机制的编码器-解码器（AED）架构，兼顾高性能与计算效率，可作为语音模型中的有效表示模块。其在普通话基准测试中的CER为3.18%，优于参数量超过12B的Seed-ASR。

FireRedASR的主要功能

高精度语音识别：FireRedASR提供两种版本，FireRedASR-LLM和FireRedASR-AED，分别针对极致精度和高效推理设计。
高效推理能力：FireRedASR-AED基于经典AED架构，参数量为1.1B，在保持高准确率的同时提升推理效率。
多场景适配：FireRedASR适用于短视频、直播、语音输入和智能助手等多种场景，相比主流ASR服务提供商，识别误差显著降低。
歌词识别优化：FireRedASR-LLM在歌词识别任务中表现出色，相对误差降低了50.2%至66.7%。
多语言支持：支持普通话、中文方言和英语，具备广泛的应用潜力。
开源与社区驱动：模型和代码已开源，便于学术研究和技术推广。

FireRedASR的技术原理

FireRedASR-LLM：采用Encoder-Adapter-LLM框架，融合大型语言模型的能力，提升语音识别精度。包含Conformer基础编码器、轻量级适配器和预训练文本LLM三个核心组件。训练过程中，通过LoRA微调方式保留LLM的预训练能力。
FireRedASR-AED：基于AED架构，由Conformer编码器和Transformer解码器组成，输入为80维log Mel特征，训练数据涵盖大量高质量普通话和英语音频。

FireRedASR的项目地址

Github仓库：https://github.com/FireRedTeam/FireRedASR
HuggingFace模型库：https://huggingface.co/FireRedTeam/FireRedASR-AED-L
arXiv技术论文：https://arxiv.org/pdf/2501.14350

FireRedASR的应用场景

智能语音助手：适用于智能家居控制、智能客服等场景，提升交互体验。
视频与直播：可实时生成字幕，增强内容可访问性。
歌词识别：适用于音乐平台和卡拉OK，提升识别准确性。
语音输入：用于语音打字、语音笔记等场景，提高输入效率。

本文分类：AI项目与工具
本文标签：AI语音识别 ASR模型多语言支持高精度识别开源工具语音处理智能助手歌词识别语音转文字 LLM集成
浏览次数：755 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9023.html

评论列表共有 0 条评论

暂无评论