Parakeet TDT 0.6B 是由英伟达开发的一款开源自动语音识别(ASR)模型。该模型采用 FastConformer 编码器与 TDT 解码器架构,通过预测文本标记及其持续时间来提升推理效率,降低计算资源消耗。其在 1 秒内可完成 60 分钟音频的转录,实时因子(RTF)达到 3386,平均单词错误率(WER)为 6.05%,在 LibriSpeech-clean 数据集上的 WER 更低至 1.69%,表现优异。 该模型具备多项功能,包括高速转录、高精度识别、歌词转录、文本格式化、标点恢复等。其技术原理融合了 Transformer 的全局注意力机制与卷积网络的局部建模能力,结合 TDT 解码器实现高效流式处理。模型基于多源语音语料库训练,包含约 12 万小时英语音频数据,并针对英伟达硬件进行了优化,支持量化和融合内核以提升性能。 Parakeet TDT 0.6B 可广泛应用于呼叫中心、会议记录、法律医疗记录、字幕生成、音乐索引及教育科技等多个领域,为语音转文字任务提供高效、精准的解决方案。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部