Dolphin

简介：Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型，支持40种语言及22种中文方言，具备高精度语音转文字能力。采用CTC-Attention架构，结合E-Branchformer和Transformer技术，提升识别效率与准确性。模型开源，支持自定义语言与地区设置，适用于会议记录、语音输入、智能助手等多种场景。

AI小编 895 阅读 0 评论 20 点赞

项目地址

Dolphin是什么

Dolphin是由清华大学电子工程系语音与音频技术实验室与海天瑞声联合开发的面向东方语言的语音大模型。该模型支持40种东方语言的语音识别，其中中文涵盖22种方言（包括普通话），能够精准捕捉不同地区的语言特征。训练数据总量达21.2万小时，其中高质量专有数据为13.8万小时，开源数据为7.4万小时。在性能方面，Dolphin的词错率（WER）显著优于同规模的Whisper模型，如base版本平均WER降低63.1%，small版本降低68.2%。其采用CTC-Attention架构，结合E-Branchformer编码器和Transformer解码器，并通过4倍下采样层提升计算效率，同时保留关键语音信息。

Dolphin的主要功能

多语言及方言识别：Dolphin支持40种东方语言的语音识别，适用于多种语言环境。
高精度语音转文字：模型具备高准确率，可高效转换语音信号为文字内容。
自定义语言和地区设置：用户可通过两级语种标签系统（如<zh>、<CN>）灵活指定语言和区域，提高识别准确性。
开源支持与二次开发：Dolphin的base与small版本模型及推理代码已开源，便于开发者进行优化与扩展。
便捷使用方式：提供命令行和Python接口调用方式，便于集成到各类应用中。

Dolphin的技术原理

CTC-Attention 架构：结合CTC序列建模与注意力机制，提升语音识别的准确性和效率。
E-Branchformer 编码器：并行分支结构增强局部与全局依赖关系的捕捉能力。
Transformer 解码器：利用自注意力机制生成高质量文本输出。
4 倍下采样层：减少输入特征长度，加快计算速度，同时保留关键信息。
两级语种标签系统：增强对方言和口音的区分能力，提升模型泛化性。

Dolphin的项目地址

Github仓库：https://github.com/DataoceanAI/Dolphin
HuggingFace模型库：https://huggingface.co/DataoceanAI
arXiv技术论文：https://arxiv.org/pdf/2503.20212

Dolphin的应用场景

会议记录：自动将会议语音转为文字，提升工作效率。
语音输入法：支持语音输入，提高输入便捷性。
智能语音助手：支持多语言和方言，提升交互体验。
智能家居：实现语音控制家居设备。
新闻媒体：快速转换采访与播客内容为文字。
语言学习：辅助发音练习与语言表达。

本文分类：AI项目与工具
本文标签：语音识别多语言支持方言识别开源模型 AI语音技术智能助手语音转文字清华大学海天瑞声语音处理
浏览次数：895 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8271.html

上一篇 > WorldScore
下一篇 > EasyControl Ghibli

评论列表共有 0 条评论

暂无评论