LatentLM是由微软研究院与清华大学联合研发的多模态生成模型,能够高效处理离散数据(如文本)和连续数据(如图像、音频)。该模型采用变分自编码器(VAE)将连续数据转化为潜在向量,并通过引入“下一个词扩散”技术实现自回归生成。基于因果Transformer架构,LatentLM实现了跨模态的信息共享,提升了模型在多模态任务中的性能与扩展性。此外,LatentLM提出σ-VAE解决方案,有效应对方差崩溃问题,增强了模型在自回归建模中的稳定性。该模型在图像生成、多模态语言模型以及文本到语音合成等领域展现出了卓越的能力。
发表评论 取消回复