WorldDreamer 是一款基于 Transformer 的通用世界模型,专注于理解和预测物理世界的动态变化及运动规律,提升视频生成能力。它能够完成自然场景和自动驾驶场景中的多种视频生成任务,如文本到视频、图像到视频、视频编辑以及动作序列生成等。WorldDreamer 通过将视觉信息映射为离散标记,并预测被遮盖的标记来达成目标,同时结合多模态提示以增强模型内部的交互能力。实验结果显示,WorldDreamer 在自然场景和驾驶环境中生成视频的表现优异,展现了其在文本到视频转换、图像到视频合成以及视频编辑等方面的多功能性。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部