Make-A-Character(简称Mach)是由阿里巴巴集团智能计算研究院开发的人工智能3D数字人生成框架,专注于通过文本描述快速创建逼真的3D角色。该系统特别适用于满足人工智能代理和元宇宙中对个性化和富有表现力的3D角色的需求。Mach的核心功能是利用大型语言和视觉模型来理解文本中的意图,并生成中间图像,然后通过一系列针对人类视觉感知和3D生成的模块,将这些图像转化为完整的3D角色模型。 Mach提供了多种功能,包括文本到3D角色生成、灵活的可控定制、高度逼真的渲染、完整的角色模型以及动画支持。此外,Mach生成的角色模型采用明确的3D表示,可以无缝集成到游戏和电影行业的标准CG流程中,便于后续的动画制作和渲染。 以下是Mach的工作流程: 1. **文本解析与视觉提示生成**:用户输入描述角色特征的文本提示。系统使用大型语言模型(LLM)理解文本中的语义信息,提取关键的面部特征和属性,并将其映射为视觉线索。 2. **参考肖像图像生成**:结合Stable Diffusion模型和ControlNet,根据提取的视觉线索生成参考肖像图像。使用Openpose和Canny边缘检测技术确保面部特征的合理分布。 3. **密集面部坐标检测**:利用密集面部坐标(431个坐标点)重建面部和头部几何结构,使用合成图像作为训练数据。 4. **几何生成**:根据参考肖像图像和密集面部坐标重建头部几何结构,使用坐标投影损失和局部平滑约束确保几何结构的准确性。 5. **纹理生成**:使用可微渲染技术从参考图像中提取纹理,通过多分辨率策略生成高分辨率纹理,并引入神经除光方法去除不必要的照明效果。 6. **纹理修正与完成**:对生成的漫反射贴图进行修正,解决特定区域的问题,并通过泊松融合技术改善视觉效果。 7. **头发生成**:通过2D图像合成各种发型,然后基于这些图像进行3D发丝重建,使用先进的头发生成技术。 8. **资产匹配**:将生成的头部与预先制作的头发、身体、服装和配饰等资产进行匹配,使用CLIP文本编码器计算输入提示与资产标签之间的相似度。 9. **角色装配**:将所有生成和匹配的部件组装成一个完整的3D角色模型,支持动画并通过骨骼刚体进行动态表现。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部