OSUM

简介：OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI小编 570 阅读 0 评论 46 点赞

项目地址

OSUM简介

OSUM（Open Speech Understanding Model）是由西北工业大学计算机学院音频、语音与语言处理研究组开发的开源语音理解模型。该模型融合了Whisper编码器与Qwen2 LLM，支持语音识别（ASR）、语音情感识别（SER）、说话者性别分类（SGC）等多种语音任务。通过“ASR+X”多任务训练策略，结合模态对齐和目标任务优化，实现高效稳定的训练效果。OSUM基于约5万小时的多样化语音数据进行训练，在中文ASR及多任务泛化能力方面表现突出。

OSUM的核心功能

语音识别：支持多种语言和方言的语音转文本。
带时间戳的语音识别：输出每个单词或短语的时间信息。
语音事件检测：识别笑声、咳嗽等语音中的特定事件。
语音情感识别：分析语音中的情绪状态。
说话风格识别：识别新闻播报、客服对话等不同风格。
说话者性别分类：判断说话者的性别。
说话者年龄预测：预测说话者的年龄范围。
语音转文本聊天：将语音输入转化为自然语言回复。

OSUM的技术架构

Speech Encoder：采用Whisper-Medium模型（769M参数），用于语音信号的特征提取。
Adaptor：包含3层卷积和4层Transformer，用于适配语音特征与语言模型输入。
LLM（语言模型）：基于Qwen2-7B-Instruct，通过LoRA微调以适应多任务需求。
多任务训练策略：
- ASR+X训练范式：同时训练语音识别与其他任务，提升模型泛化能力。
- 自然语言Prompt：通过不同的提示引导模型执行不同任务。
数据处理与训练：使用约5万小时的多样化语音数据进行多任务训练，包括开源和内部数据。训练分为两个阶段：首先对Whisper模型进行多任务微调，再与LLM结合进行监督训练。

OSUM项目资源

GitHub仓库：https://github.com/ASLP-lab/OSUM
arXiv技术论文：https://arxiv.org/pdf/2501.13306v2
在线体验Demo：https://huggingface.co/spaces/ASLP-lab/OSUM

OSUM的应用场景

智能客服：通过语音识别与情感分析，提升客户交互体验。
智能家居：识别语音指令与环境事件，增强交互效率。
教育工具：分析学生语音，提供个性化学习反馈。
心理健康监测：通过语音情绪分析辅助心理评估。
多媒体内容创作：自动生成字幕与标签，提升视频编辑效率。

本文分类：AI项目与工具
本文标签：语音识别多任务学习 AI模型语音情感分析自然语言处理开源工具智能客服语音转文本语言模型语音事件检测
浏览次数：570 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8811.html

评论列表共有 0 条评论

暂无评论