扩散模型

PSHuman

PSHuman是一款基于跨尺度多视图扩散模型的单图像3D人像重建工具,仅需一张照片即可生成高保真度的3D人体模型,支持全身姿态和面部细节的精确重建。其核心技术包括多视角生成、SMPL-X人体模型融合及显式雕刻技术,确保模型在几何和纹理上的真实感。该工具适用于影视、游戏、VR/AR、时尚设计等多个领域,具备高效、精准和易用的特点。

SHMT

SHMT是一种基于自监督学习的高级化妆转移技术,由阿里巴巴达摩院与武汉理工大学联合研发。该技术无需成对训练数据,可将多种化妆风格自然迁移到目标面部图像上,通过“解耦-重建”策略和迭代双重对齐模块,实现高精度的纹理控制与对齐校正。适用于图像处理、虚拟试妆、影视设计等多个领域,具有高效、灵活、高质量的特点。

Seaweed APT

Seaweed APT是字节跳动研发的对抗性后训练模型,支持图像和视频的一站式生成。其通过在真实数据上进行对抗性训练,实现单步高质量输出,包括1024px图像和1280×720、24fps视频。该模型采用先进的生成器和判别器设计,结合近似R1正则化技术,提升训练稳定性和生成质量。适用于视频广告、影视创作、社交媒体等内容生产场景。

MatterGen

MatterGen是由微软开发的生成式AI模型,专注于无机材料的设计与生成。它通过扩散过程逐步优化原子结构,生成稳定、多样化且符合特定性能要求的材料。支持化学组成、磁性、电子和机械性能等多维度约束,适用于逆向材料设计,提升新材料研发效率。已应用于能源、催化、电子等领域,推动材料科学进步。

Prometheus

Prometheus是一款基于潜在扩散模型的3D生成工具,能够从文本描述中快速生成高质量、高保真的3D场景。其核心技术包括两阶段训练框架、RGB-D潜在空间解耦、前馈生成策略和无分类器引导,确保生成结果在视觉和几何上的准确性与一致性。适用于内容创作、游戏开发、建筑设计等多个领域,显著提升了3D内容生成的效率和质量。

FaceLift

FaceLift是一种由Adobe与加州大学默塞德分校联合开发的AI工具,能够从单张人脸图像中重建出高精度的3D头部模型。其核心技术包括多视图扩散模型和GS-LRM重建器,支持多视角一致性、身份保持和4D新视图合成,适用于虚拟现实、数字娱乐、远程交互等多个领域。该工具具备强大的几何与纹理细节表现能力,且可与2D面部重动画技术集成,广泛应用于内容创作与科研场景。

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。

ConceptMaster

ConceptMaster是一款基于扩散Transformer模型的多概念视频生成框架,可在无需测试调优的情况下生成高质量、概念一致的视频。通过解耦多概念嵌入并独立注入模型,有效解决身份解耦问题,尤其擅长处理高度相似的视觉概念。该工具支持多概念视频定制、高质量数据收集和全面的基准测试,适用于视频创作、动画制作、游戏开发及产品展示等领域。

SPAR3D

SPAR3D是一种基于两阶段设计的单图像3D重建工具,能从单张2D图像生成高质量的3D网格。它结合点扩散模型与三平面Transformer技术,实现快速、精确的几何与纹理重建,并支持用户交互式编辑。适用于增强现实、影视制作、工业设计等多个领域。

TransPixar

TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。