OSUM简介
OSUM(Open Speech Understanding Model)是由西北工业大学计算机学院音频、语音与语言处理研究组开发的开源语音理解模型。该模型融合了Whisper编码器与Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。通过“ASR+X”多任务训练策略,结合模态对齐和目标任务优化,实现高效稳定的训练效果。OSUM基于约5万小时的多样化语音数据进行训练,在中文ASR及多任务泛化能力方面表现突出。
OSUM的核心功能
- 语音识别:支持多种语言和方言的语音转文本。
- 带时间戳的语音识别:输出每个单词或短语的时间信息。
- 语音事件检测:识别笑声、咳嗽等语音中的特定事件。
- 语音情感识别:分析语音中的情绪状态。
- 说话风格识别:识别新闻播报、客服对话等不同风格。
- 说话者性别分类:判断说话者的性别。
- 说话者年龄预测:预测说话者的年龄范围。
- 语音转文本聊天:将语音输入转化为自然语言回复。
OSUM的技术架构
- Speech Encoder:采用Whisper-Medium模型(769M参数),用于语音信号的特征提取。
- Adaptor:包含3层卷积和4层Transformer,用于适配语音特征与语言模型输入。
- LLM(语言模型):基于Qwen2-7B-Instruct,通过LoRA微调以适应多任务需求。
- 多任务训练策略:
- ASR+X训练范式:同时训练语音识别与其他任务,提升模型泛化能力。
- 自然语言Prompt:通过不同的提示引导模型执行不同任务。
- 数据处理与训练:使用约5万小时的多样化语音数据进行多任务训练,包括开源和内部数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,再与LLM结合进行监督训练。
OSUM项目资源
- GitHub仓库:https://github.com/ASLP-lab/OSUM
- arXiv技术论文:https://arxiv.org/pdf/2501.13306v2
- 在线体验Demo:https://huggingface.co/spaces/ASLP-lab/OSUM
OSUM的应用场景
- 智能客服:通过语音识别与情感分析,提升客户交互体验。
- 智能家居:识别语音指令与环境事件,增强交互效率。
- 教育工具:分析学生语音,提供个性化学习反馈。
- 心理健康监测:通过语音情绪分析辅助心理评估。
- 多媒体内容创作:自动生成字幕与标签,提升视频编辑效率。
发表评论 取消回复