LATTE3D概述
LATTE3D是英伟达多伦多AI实验室开发的一种用于生成高质量3D对象的模型。该模型能够基于文本描述,在极短时间内生成逼真的3D内容。其核心技术采用了摊销优化方法,即在大量文本提示上同时优化一个共享的文本条件模型,从而提高了模型对新提示的适应能力,大幅缩短了生成每个3D对象所需的时间。
LATTE3D的资源链接
- 官方项目主页:https://research.nvidia.com/labs/toronto-ai/LATTE3D/
- 研究论文:https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view
LATTE3D的主要功能
- 文本到3D合成: 根据文本描述生成相应的三维模型。用户可以通过输入文本提示,例如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”,来生成具有特定特征和风格的3D对象。
- 快速生成: LATTE3D能够在约400毫秒内生成3D对象,实现了实时响应用户的输入,为用户提供即时的视觉反馈。
- 高质量渲染: 结合神经场和纹理表面生成技术,LATTE3D能生成具有高细节水平的纹理网格,提供视觉上令人信服的3D渲染结果。
- 3D风格化: 该模型还支持3D风格化功能,允许用户在现有3D资产上应用新的风格或主题,从而创造出多样化的视觉效果。
LATTE3D的架构方法
LATTE3D的训练分为两个阶段:首先,利用体积渲染训练纹理和几何形状;为了增强提示的稳健性,训练目标包括来自3D感知图像先验的SDS梯度以及将预测形状的掩模与库中3D资产进行比较的正则化损失。随后,采用基于表面的渲染并仅训练纹理以提升质量。两个阶段均对一组提示使用摊销优化以确保快速生成。
LATTE3D采用了两个网络:纹理网络T和几何网络G,均由triplanes和U-Net组合构成。在第一阶段,两个网络的编码器共享相同的权重集;在第二阶段,几何网络G被冻结,而纹理网络T则被更新,并使用MLP进一步对triplanes进行上采样。
发表评论 取消回复