Emu3是由北京智源人工智能研究院开发的一款原生多模态世界模型,利用自主研发的多模态自回归技术路径,在图像、视频和文本上进行联合训练,实现了多模态能力的深度融合。该模型通过将各类内容转化为离散符号,并使用单一的Transformer架构预测下一个符号,显著简化了模型结构。Emu3在图像生成方面表现出色,仅需简单的文本描述即可生成高质量图像,其性能甚至超过了专门的图像生成模型SDXL。此外,Emu3在跨模态理解上也具有独特优势,能够准确描述现实场景并生成恰当的文字回应,无需借助CLIP或预训练语言模型。同时,它还能自然地延续和扩展视频内容,展现出对物理世界的深刻理解。
发表评论 取消回复