WorldDreamer 是一款基于 Transformer 的通用世界模型,专注于理解和预测物理世界的动态变化及运动规律,提升视频生成能力。它能够完成自然场景和自动驾驶场景中的多种视频生成任务,如文本到视频、图像到视频、视频编辑以及动作序列生成等。WorldDreamer 通过将视觉信息映射为离散标记,并预测被遮盖的标记来达成目标,同时结合多模态提示以增强模型内部的交互能力。实验结果显示,WorldDreamer 在自然场景和驾驶环境中生成视频的表现优异,展现了其在文本到视频转换、图像到视频合成以及视频编辑等方面的多功能性。
发表评论 取消回复