PrimitiveAnything简介
PrimitiveAnything是由腾讯人工智能平台部(AIPD)与清华大学联合研发的一种新型3D形状生成框架。该框架通过将复杂的3D形状分解为基本的几何基元,利用自回归方式逐个生成这些基元,并最终将其重新组合为完整的3D模型。其核心优势包括高质量的生成效果、出色的泛化能力以及高效的运行性能。
PrimitiveAnything的主要功能
- 高质量3D原语组装生成:能够生成符合原始模型几何特征且具有人类认知一致性的3D原语组合。
- 多样化3D内容创作:支持基于文本或图像条件生成3D内容,提供灵活的创作方式。
- 高效存储和编辑:采用原语表示方式,使3D模型在存储和编辑方面更加高效。
- 自回归变换器架构:通过自回归Transformer逐帧生成3D原语,具备处理不同长度序列的能力,并可扩展至新类型。
- 无歧义的参数化方案:通过消除参数化中的歧义性,确保模型训练与生成过程的稳定性。
- 几何保真度与语义一致性:在生成过程中保持高几何保真度,实现符合人类认知的语义分解。
- 模块化设计:支持无缝集成新的原语类型,无需修改整体架构。
PrimitiveAnything的技术原理
- 无歧义的参数化方案
- 统一表示:使用多种基元(如立方体、椭圆柱体等)在统一参数化下表示3D形状,编码其位置、旋转和缩放等属性。
- 消除歧义:通过分析基元对称性,选择旋转参数L1范数最小的一组作为唯一表示,提升模型稳定性。
- 自回归变换器架构
- 形状条件化:基于解码器的Transformer架构根据形状特征生成可变长度的基元序列。
- 级联解码器:依次预测基元的类型、位置、旋转和缩放,捕捉属性间的自然相关性。
- 自回归生成流程
- 序列生成:将基元抽象过程视为序列生成任务,以点云为输入,自回归生成基元序列。
- 训练目标:结合交叉熵损失、Chamfer距离和Gumbel-Softmax,实现精准的3D形状分解。
PrimitiveAnything的项目信息
- 项目官网:https://primitiveanything.github.io/
- Github仓库:https://github.com/PrimitiveAnything/PrimitiveAnything
- HuggingFace模型库:https://huggingface.co/hyz317/PrimitiveAnything
- arXiv技术论文:https://arxiv.org/pdf/2505.04622
PrimitiveAnything的应用场景
- 3D建模与设计:快速生成3D模型的“几何骨架”,提升设计师的工作效率。
- 游戏资产生成:支持快速生成游戏场景和角色模型,提高开发效率。
- 用户生成内容(UGC):允许用户通过文本或图像输入生成3D内容,拓展UGC的可能性。
- 虚拟现实(VR)和增强现实(AR):可用于快速生成逼真的3D对象,增强沉浸式体验。
发表评论 取消回复