Dolphin是什么

Dolphin是由清华大学电子工程系语音与音频技术实验室与海天瑞声联合开发的面向东方语言的语音大模型。该模型支持40种东方语言的语音识别,其中中文涵盖22种方言(包括普通话),能够精准捕捉不同地区的语言特征。训练数据总量达21.2万小时,其中高质量专有数据为13.8万小时,开源数据为7.4万小时。在性能方面,Dolphin的词错率(WER)显著优于同规模的Whisper模型,如base版本平均WER降低63.1%,small版本降低68.2%。其采用CTC-Attention架构,结合E-Branchformer编码器和Transformer解码器,并通过4倍下采样层提升计算效率,同时保留关键语音信息。

Dolphin的主要功能

  • 多语言及方言识别:Dolphin支持40种东方语言的语音识别,适用于多种语言环境。
  • 高精度语音转文字:模型具备高准确率,可高效转换语音信号为文字内容。
  • 自定义语言和地区设置:用户可通过两级语种标签系统(如<zh>、<CN>)灵活指定语言和区域,提高识别准确性。
  • 开源支持与二次开发:Dolphin的base与small版本模型及推理代码已开源,便于开发者进行优化与扩展。
  • 便捷使用方式:提供命令行和Python接口调用方式,便于集成到各类应用中。

Dolphin的技术原理

  • CTC-Attention 架构:结合CTC序列建模与注意力机制,提升语音识别的准确性和效率。
  • E-Branchformer 编码器:并行分支结构增强局部与全局依赖关系的捕捉能力。
  • Transformer 解码器:利用自注意力机制生成高质量文本输出。
  • 4 倍下采样层:减少输入特征长度,加快计算速度,同时保留关键信息。
  • 两级语种标签系统:增强对方言和口音的区分能力,提升模型泛化性。

Dolphin的项目地址

Dolphin的应用场景

  • 会议记录:自动将会议语音转为文字,提升工作效率。
  • 语音输入法:支持语音输入,提高输入便捷性。
  • 智能语音助手:支持多语言和方言,提升交互体验。
  • 智能家居:实现语音控制家居设备。
  • 新闻媒体:快速转换采访与播客内容为文字。
  • 语言学习:辅助发音练习与语言表达。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部