LatentLM

简介：LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI小编 734 阅读 0 评论 67 点赞

项目地址

LatentLM是由微软研究院与清华大学联合研发的多模态生成模型，能够高效处理离散数据（如文本）和连续数据（如图像、音频）。该模型采用变分自编码器（VAE）将连续数据转化为潜在向量，并通过引入“下一个词扩散”技术实现自回归生成。基于因果Transformer架构，LatentLM实现了跨模态的信息共享，提升了模型在多模态任务中的性能与扩展性。此外，LatentLM提出σ-VAE解决方案，有效应对方差崩溃问题，增强了模型在自回归建模中的稳定性。该模型在图像生成、多模态语言模型以及文本到语音合成等领域展现出了卓越的能力。

本文分类：AI项目与工具
本文标签：多模态变分自编码器因果Transformer 自回归生成图像生成文本到语音多模态语言模型 σ-VAE 跨模态智能生成
浏览次数：734 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9864.html

评论列表共有 0 条评论

暂无评论

LatentLM

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复