WorldDreamer

简介：WorldDreamer 是一种基于 Transformer 的通用世界模型，具备理解与预测物理世界动态变化的能力，专注于视频生成任务。它支持多种应用场景，包括文本到视频、图像到视频、视频编辑和动作序列生成，利用视觉 Token 化、Transformer 架构和多模态提示技术，实现了高效且高质量的视频生成。

AI小编 798 阅读 0 评论 16 点赞

项目地址

WorldDreamer 是一款基于 Transformer 的通用世界模型，专注于理解和预测物理世界的动态变化及运动规律，提升视频生成能力。它能够完成自然场景和自动驾驶场景中的多种视频生成任务，如文本到视频、图像到视频、视频编辑以及动作序列生成等。WorldDreamer 通过将视觉信息映射为离散标记，并预测被遮盖的标记来达成目标，同时结合多模态提示以增强模型内部的交互能力。实验结果显示，WorldDreamer 在自然场景和驾驶环境中生成视频的表现优异，展现了其在文本到视频转换、图像到视频合成以及视频编辑等方面的多功能性。

本文分类：AI项目与工具
本文标签：AI 视频生成 Transformer 多模态提示自然场景驾驶环境文本到视频图像到视频视频编辑动作序列
浏览次数：798 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/10245.html

评论列表共有 0 条评论

暂无评论

WorldDreamer

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复