URO-Bench 是什么
URO-Bench 是一个面向端到端语音对话模型(SDMs)的综合性基准测试工具,旨在全面评估模型在多语言、多轮对话及副语言信息处理等方面的能力。该基准包含基础赛道和高级赛道,基础赛道涵盖16个数据集,涉及开放性问答、事实问答等任务;高级赛道则包含20个数据集,覆盖代码切换问答、语音情感生成、多语言问答等复杂场景。
URO-Bench 的主要功能
- 多语言支持:支持多种语言,包括英语和中文,适用于跨语言对话任务。
- 多轮对话评估:提供多轮对话任务,用于评估模型在连续交互中的表现。
- 副语言信息评估:涵盖语音情感理解、语音风格生成等任务,增强真实交互场景的评估能力。
- 基础赛道:包含16个数据集,涵盖开放性问答、事实问答、数学应用题等多种任务类型。
- 高级赛道:包含20个数据集,涉及代码切换问答、语音情感生成、音频理解等高阶任务。
- 四步评估流程:用户可通过修改推理代码、配置脚本并运行自动评估管道,快速获取模型性能结果。
- 多指标评估:采用UTMOS、ASR-WER、情感理解准确率等指标,全面衡量模型在语音理解与口语对话方面的能力。
- 通用性:兼容多种端到端语音对话模型,支持用户自定义模型接入评估。
- 参考模型:提供如Whisper + GPT-4o、GLM-4-Voice等预训练模型的评估结果作为参考。
URO-Bench 的技术原理
- 语音合成(TTS):使用F5-TTS、CosyVoice等系统将文本转化为语音数据。
- 语音识别(ASR):利用Whisper-large-v3等系统进行语音转录。
- 情感识别:通过emotion2vec等模型分析语音中的情感信息。
- 多语言处理:支持多语言输入与输出,提升模型的跨语言能力。
URO-Bench 的项目地址
- Github仓库:https://github.com/Ruiqi-Yan/URO-Bench
- HuggingFace 模型库:https://huggingface.co/datasets/Honggao/URO-Bench
- arXiv 技术论文:https://arxiv.org/pdf/2502.17810
URO-Bench 的应用场景
- 智能家居控制:用于评估语音助手在理解和响应用户指令方面的表现。
- 个人助理:测试语音助手在多轮对话中的连贯性和准确性。
- 语言学习:评估模型在多语言对话与情感表达中的能力。
- 医疗咨询:用于评估模型在专业健康信息处理方面的能力。
- 语音游戏:评估模型在多轮对话和情感生成中的表现。
发表评论 取消回复