实时语音交互

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务