MinMo

简介：MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型，具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互，适用于智能客服、教育、医疗等多个领域，提升人机对话的自然度与效率。

AI小编 899 阅读 0 评论 59 点赞

MinMo是由阿里巴巴通义实验室FunAudioLLM团队研发的多模态大模型，专注于实现高效的语音交互体验。该模型拥有约80亿参数，基于多阶段训练方法，在140万小时多样化的语音数据和广泛任务上进行学习。MinMo支持根据用户指令生成具有特定情感、方言及说话风格的语音，并能模仿特定音色，生成效率超过90%。其全双工语音交互功能可实现用户与系统之间的实时双向通信，语音到文本延迟约为100毫秒，全双工延迟理论值为600毫秒，实际约为800毫秒。 MinMo采用多模态融合架构，包括语音编码器、输入输出投影器、语言模型、语音标记语言模型、Token2wav合成器以及全双工预测器等模块，以提升语音识别与生成的准确性与自然度。同时，通过多阶段训练策略，包括语音到文本、文本到语音、语音到语音以及双工交互对齐，进一步优化模型性能。 MinMo已在多个场景中得到应用，如智能客服、智能助手、教育、医疗健康及智能驾驶等，为用户提供高效、自然、个性化的语音交互服务。

本文分类：AI项目与工具
本文标签：AI语音交互多模态模型语音生成全双工交互情感识别阿里巴巴语音处理 AI技术语音助手人工智能
浏览次数：899 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9436.html

评论列表共有 0 条评论

暂无评论

MinMo

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复