MinMo是由阿里巴巴通义实验室FunAudioLLM团队研发的多模态大模型,专注于实现高效的语音交互体验。该模型拥有约80亿参数,基于多阶段训练方法,在140万小时多样化的语音数据和广泛任务上进行学习。MinMo支持根据用户指令生成具有特定情感、方言及说话风格的语音,并能模仿特定音色,生成效率超过90%。其全双工语音交互功能可实现用户与系统之间的实时双向通信,语音到文本延迟约为100毫秒,全双工延迟理论值为600毫秒,实际约为800毫秒。 MinMo采用多模态融合架构,包括语音编码器、输入输出投影器、语言模型、语音标记语言模型、Token2wav合成器以及全双工预测器等模块,以提升语音识别与生成的准确性与自然度。同时,通过多阶段训练策略,包括语音到文本、文本到语音、语音到语音以及双工交互对齐,进一步优化模型性能。 MinMo已在多个场景中得到应用,如智能客服、智能助手、教育、医疗健康及智能驾驶等,为用户提供高效、自然、个性化的语音交互服务。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部