LatentLM是由微软研究院与清华大学联合研发的多模态生成模型,能够高效处理离散数据(如文本)和连续数据(如图像、音频)。该模型采用变分自编码器(VAE)将连续数据转化为潜在向量,并通过引入“下一个词扩散”技术实现自回归生成。基于因果Transformer架构,LatentLM实现了跨模态的信息共享,提升了模型在多模态任务中的性能与扩展性。此外,LatentLM提出σ-VAE解决方案,有效应对方差崩溃问题,增强了模型在自回归建模中的稳定性。该模型在图像生成、多模态语言模型以及文本到语音合成等领域展现出了卓越的能力。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部