ChildMandarin简介

ChildMandarin是由智源研究院与南开大学计算机学院人类语言技术实验室(HLT Lab)联合开发的,专为3至5岁儿童设计的普通话语音数据集。该数据集包含41.25小时的语音记录,涵盖397名儿童,覆盖中国22个省级行政区,性别比例均衡。语音通过智能手机录制,确保音频质量。其核心优势在于自然真实的交互方式,采用家长引导式对话采集模式,模拟真实交流环境。该数据集填补了低龄儿童语音研究领域的空白,为儿童语音识别、语言发展研究及智能语音交互系统的优化提供了重要支持。

ChildMandarin的主要功能

  • 语音识别:提供大量3至5岁儿童的自然语音数据,用于提升自动语音识别模型在儿童语音场景下的准确性和稳定性。
  • 说话人验证:支持说话人身份识别任务,有助于区分不同儿童的声音,适用于儿童身份认证等应用场景。
  • 语言研究:为儿童语言发展研究提供高质量数据支持,助力语言学习工具和互动教育系统的开发。

ChildMandarin的技术原理

  • 数据采集:通过家长引导的自然对话方式采集语音数据,确保数据的真实性与自然性。数据覆盖全国22个省级行政区,体现地域口音多样性,并使用智能手机进行录音,采样率为16kHz,精度为16位。
  • 数据标注:由专业人员对语音内容进行详细标注,包括发音、停顿、重复等语言现象,并记录儿童年龄、性别、出生地、设备类型及口音等级等信息。
  • 模型训练与评估:采用多种ASR模型(如Transformer、Conformer、Paraformer)进行训练与评估,结合CTC、AED、RNN-T等技术。同时对预训练模型(如HuBERT、Whisper)进行微调,以提升儿童语音识别性能。此外,使用x-vector、ECAPA-TDNN、ResNet-TDNN等模型进行说话人验证。
  • 数据集设计:数据集划分为训练集、验证集和测试集,确保模型训练与评估的科学性与有效性。数据覆盖不同年龄、性别、地域和口音的儿童,具有高度多样性。

ChildMandarin项目资源

ChildMandarin的应用场景

  • 儿童语言学习工具:支持开发语音辅助学习系统,帮助儿童提高发音、词汇和语法能力。
  • 互动教育系统:增强教育软件的语音交互功能,提升学习体验。
  • 智能玩具开发:提升玩具的语音识别能力,增强与儿童的互动效果。
  • 语音助手优化:改进语音助手对儿童语音的识别与响应能力。
  • 儿童健康管理:监测语言发展状况,支持早期干预与健康评估。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部