OSUM简介

OSUM(Open Speech Understanding Model)是由西北工业大学计算机学院音频、语音与语言处理研究组开发的开源语音理解模型。该模型融合了Whisper编码器与Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。通过“ASR+X”多任务训练策略,结合模态对齐和目标任务优化,实现高效稳定的训练效果。OSUM基于约5万小时的多样化语音数据进行训练,在中文ASR及多任务泛化能力方面表现突出。

OSUM的核心功能

  • 语音识别:支持多种语言和方言的语音转文本。
  • 带时间戳的语音识别:输出每个单词或短语的时间信息。
  • 语音事件检测:识别笑声、咳嗽等语音中的特定事件。
  • 语音情感识别:分析语音中的情绪状态。
  • 说话风格识别:识别新闻播报、客服对话等不同风格。
  • 说话者性别分类:判断说话者的性别。
  • 说话者年龄预测:预测说话者的年龄范围。
  • 语音转文本聊天:将语音输入转化为自然语言回复。

OSUM的技术架构

  • Speech Encoder:采用Whisper-Medium模型(769M参数),用于语音信号的特征提取。
  • Adaptor:包含3层卷积和4层Transformer,用于适配语音特征与语言模型输入。
  • LLM(语言模型):基于Qwen2-7B-Instruct,通过LoRA微调以适应多任务需求。
  • 多任务训练策略
    • ASR+X训练范式:同时训练语音识别与其他任务,提升模型泛化能力。
    • 自然语言Prompt:通过不同的提示引导模型执行不同任务。
  • 数据处理与训练:使用约5万小时的多样化语音数据进行多任务训练,包括开源和内部数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,再与LLM结合进行监督训练。

OSUM项目资源

OSUM的应用场景

  • 智能客服:通过语音识别与情感分析,提升客户交互体验。
  • 智能家居:识别语音指令与环境事件,增强交互效率。
  • 教育工具:分析学生语音,提供个性化学习反馈。
  • 心理健康监测:通过语音情绪分析辅助心理评估。
  • 多媒体内容创作:自动生成字幕与标签,提升视频编辑效率。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部