OmniTalker 是阿里巴巴推出的一项实时文本驱动的说话头像生成技术,能够处理多种模态输入,包括文本、图像、音频和视频,并以流式方式生成自然语音响应。其核心架构为 Thinker-Talker 架构,其中 Thinker 负责多模态信息的处理与语义表征生成,而 Talker 则基于这些信息生成流畅的语音输出。OmniTalker 引入了 TMRoPE(时间对齐多模态旋转位置嵌入)技术,实现音视频输入的精准同步。该技术支持流式处理,采用分块机制降低延迟,提升处理效率。此外,OmniTalker 在语音生成的自然性和稳定性方面表现优异,具备端到端训练机制,确保模型整体性能的一致性。
发表评论 取消回复