GEN3C

简介：GEN3C是由NVIDIA、多伦多大学和向量研究所联合开发的生成式视频模型，基于点云构建3D缓存，结合精确的相机控制和时空一致性技术，实现高质量视频生成。支持从单视角到多视角的视频创作，具备3D编辑能力，适用于动态场景和长视频生成。在新型视图合成、驾驶模拟、影视制作等领域有广泛应用前景。

AI小编 439 阅读 0 评论 23 点赞

项目地址

GEN3C简介

GEN3C是由NVIDIA、多伦多大学和向量研究所联合开发的一种新型生成式视频模型，其核心在于通过精确的相机控制与时空一致性技术，生成高质量的3D视频内容。该模型基于点云构建3D缓存，并利用输入图像或视频帧的深度估计进行反投影，从而生成3D场景。随后，根据用户提供的相机轨迹渲染出2D视频作为生成模型的条件输入。GEN3C的优势在于能够精准控制相机运动，避免传统方法中因缺乏显式3D建模而产生的不一致性问题。它支持从单视角到多视角的视频生成，适用于静态和动态场景，在稀疏视图的新型视图合成任务中表现优异。此外，GEN3C还支持3D编辑和复杂相机运动的生成，为视频创作和模拟提供了强大工具。

GEN3C的主要功能

精确的相机控制：根据用户指定的相机轨迹生成视频，支持复杂的相机运动（如推拉镜头、旋转镜头等），保持视频的时空一致性。
3D一致性视频生成：支持生成具有真实感和一致性的视频，避免物体突然出现或消失等问题。
多视角和稀疏视角的新型视图合成：支持从单视角、稀疏多视角到密集多视角的输入，生成高质量的新型视图视频。
3D编辑和场景操作：允许用户修改3D点云（如删除或添加物体）以编辑场景，生成相应的视频。
长视频生成：支持生成长视频，同时保持时空一致性。

GEN3C的技术原理

构建3D缓存：通过输入图像或视频帧的深度估计反投影生成3D点云，形成时空一致的3D缓存，作为视频生成的基础。
渲染3D缓存：根据用户提供的相机轨迹，将3D缓存渲染成2D视频。
视频生成：使用预训练的视频扩散模型（如Stable Video Diffusion或Cosmos），将渲染的3D缓存作为条件输入，生成高质量视频。模型通过优化扩散过程中的去噪目标，修复渲染中的瑕疵并填补缺失信息。
多视角融合：当输入包含多个视角时，GEN3C采用最大池化策略，将不同视角的信息聚合至视频生成模型中，生成一致的视频。
自回归生成和缓存更新：针对长视频生成，GEN3C将视频划分为多个重叠块，逐块生成并更新3D缓存，以维持视频的时空一致性。

GEN3C的项目地址

项目官网：https://research.nvidia.com/labs/toronto-ai/GEN3C/
GitHub仓库：https://github.com/nv-tlabs/GEN3C
arXiv技术论文：https://arxiv.org/pdf/2503.03751

GEN3C的应用场景

单视角视频生成：从一张图片生成动态视频，适用于快速内容创作。
新型视图合成：从少量视角生成新视角视频，应用于VR/AR和3D重建。
驾驶模拟：生成驾驶场景的不同视角视频，助力自动驾驶训练。
动态视频重渲染：为已有视频生成新视角，用于视频编辑和二次创作。
3D场景编辑：修改场景内容后生成新视频，助力影视制作和游戏开发。

本文分类：AI项目与工具
本文标签：AI视频生成 3D视频模型点云技术相机控制视频合成人工智能视觉生成 3D场景编辑视频扩散模型多视角生成
浏览次数：439 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8546.html

评论列表共有 0 条评论

暂无评论