LATTE3D

简介：LATTE3D 是由英伟达多伦多AI实验室开发的一种高效生成高质量3D对象的模型。它基于文本描述，能在约400毫秒内生成逼真的3D内容。LATTE3D采用摊销优化方法，增强了对新提示的适应能力。该模型支持文本到3D合成、快速生成、高质量渲染及3D风格化功能，适用于多种应用场景。

AI小编 734 阅读 0 评论 41 点赞

官网地址

LATTE3D概述

LATTE3D是英伟达多伦多AI实验室开发的一种用于生成高质量3D对象的模型。该模型能够基于文本描述，在极短时间内生成逼真的3D内容。其核心技术采用了摊销优化方法，即在大量文本提示上同时优化一个共享的文本条件模型，从而提高了模型对新提示的适应能力，大幅缩短了生成每个3D对象所需的时间。

文本到3D合成： 根据文本描述生成相应的三维模型。用户可以通过输入文本提示，例如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。
快速生成： LATTE3D能够在约400毫秒内生成3D对象，实现了实时响应用户的输入，为用户提供即时的视觉反馈。
高质量渲染： 结合神经场和纹理表面生成技术，LATTE3D能生成具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。
3D风格化： 该模型还支持3D风格化功能，允许用户在现有3D资产上应用新的风格或主题，从而创造出多样化的视觉效果。

LATTE3D的训练分为两个阶段：首先，利用体积渲染训练纹理和几何形状；为了增强提示的稳健性，训练目标包括来自3D感知图像先验的SDS梯度以及将预测形状的掩模与库中3D资产进行比较的正则化损失。随后，采用基于表面的渲染并仅训练纹理以提升质量。两个阶段均对一组提示使用摊销优化以确保快速生成。

LATTE3D采用了两个网络：纹理网络T和几何网络G，均由triplanes和U-Net组合构成。在第一阶段，两个网络的编码器共享相同的权重集；在第二阶段，几何网络G被冻结，而纹理网络T则被更新，并使用MLP进一步对triplanes进行上采样。

暂无评论