Motion Dreamer

简介：Motion Dreamer是由香港科技大学（广州）研发的视频生成框架，采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制，支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能，已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

AI小编 815 阅读 0 评论 12 点赞

项目地址

Motion Dreamer简介

Motion Dreamer是由香港科技大学（广州）研究团队开发的一种视频生成框架，旨在生成具有合理运动逻辑的视频内容。该框架采用两阶段生成机制：第一阶段基于输入图像和运动条件生成中间运动表示，如分割图或深度图；第二阶段则利用这些表示生成高细节的视频内容。Motion Dreamer引入了“实例流”这一新的运动模态，支持从稀疏到密集的运动控制，用户仅需提供少量运动提示，即可生成时间连贯的视频。在训练过程中，采用随机掩码实例流策略，增强模型对缺失信息的推理能力与泛化性能。实验结果表明，该方法在物理合理性与运动连贯性方面优于现有技术，在多个数据集上表现优异。

Motion Dreamer的核心功能

生成符合物理规律的视频：通过两阶段架构，Motion Dreamer先生成中间运动表示，再据此合成高质量视频，确保运动过程的合理性。
实现从稀疏到密集的运动控制：引入实例流作为新运动模态，允许用户以稀疏提示引导模型生成像素级的密集运动表示。
提升模型推理与泛化能力：通过随机掩码实例流的训练策略，增强模型对缺失信息的推断能力，提高其在复杂场景下的适应性。

Motion Dreamer的技术原理

两阶段生成框架
- 第一阶段：运动推理：基于输入图像和运动条件，生成低频运动表示，如光流、分割图和深度图，用于描述场景动态。
- 第二阶段：高保真视频合成：利用第一阶段的运动表示生成高细节视频，确保运动与视觉质量的统一。
实例流技术：实例流是一种连接稀疏输入与密集运动表示的新模态，通过多尺度处理和Softmax Splatting函数实现特征变形，保持可微性以支持端到端训练。
随机掩码训练策略：在训练中随机遮蔽部分实例流，促使模型推断缺失信息，增强其在不完整输入下的表现。

Motion Dreamer项目信息

项目官网：https://envision-research.github.io/MotionDreamer
Github仓库：https://github.com/EnVision-Research/MotionDreamer
arXiv论文：https://arxiv.org/pdf/2412.00547

Motion Dreamer的应用场景

视频内容创作：为影视、广告等行业提供高质量、物理合理的视频素材。
动画制作：提升动画制作效率，减少人工干预。
沉浸式体验：适用于VR/AR场景，增强虚拟内容的真实感。
交互式应用：根据用户输入生成动态内容，提升交互自然度。
自动驾驶模拟：生成多样化的驾驶场景，辅助算法测试。
交通流量分析：用于生成模拟数据，支持城市交通规划。

本文分类：AI项目与工具
本文标签：AI视频生成运动控制视频合成实例流物理合理性深度学习自动驾驶模拟 VR/AR应用高保真视频视频生成框架
浏览次数：815 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9467.html

评论列表共有 0 条评论

暂无评论