扩散模型 - 智狐AI导航

FantasyID

FantasyID是由阿里巴巴集团与北京邮电大学联合开发的视频生成框架，基于扩散变换器和3D面部几何先验，实现高质量、身份一致的视频生成。其通过多视角增强和分层特征注入技术，提升面部动态表现，同时保持身份稳定性。支持多种应用场景，如虚拟形象、内容创作和数字人交互，具备无需微调的高效生成能力。

AI项目与工具 2025年06月12日 81 点赞 0 评论 511 浏览

HART

HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型，能够生成1024×1024像素的高分辨率图像，质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块，HART实现了高效的图像生成，并在多个指标上表现出色，包括重构FID、生成FID以及计算效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 513 浏览

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架，由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导，提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态，提供高分辨率基准数据集HR-VVT，适用于在线购物、时尚设计、影视制作等多个领域。

AI项目与工具 2025年06月11日 60 点赞 0 评论 515 浏览

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术，能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化，结合动态权重平衡和多种损失函数，提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能，适用于室内场景、艺术风格转换及跨视图一致性任务。

AI项目与工具 2025年06月12日 60 点赞 0 评论 515 浏览

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具，通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略，确保编辑内容自然融合，保留原始细节。支持真实图像和多部分同时编辑，无需重新训练模型，适用于艺术设计、影视制作、广告等多个领域。

AI项目与工具 2025年06月12日 59 点赞 0 评论 518 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 521 浏览

MDM

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架，通过嵌套UNet架构实现多分辨率联合去噪，支持从低分辨率到高分辨率的渐进式训练，显著提升高分辨率图像生成效率，适用于多种应用场景，如数字艺术创作、游戏开发、电影制作等，并具备出色的零样本泛化能力。

AI项目与工具 2025年06月12日 28 点赞 0 评论 523 浏览

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具，支持多种图像处理任务，如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷，同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点，适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 523 浏览

Emu Video

Meta开发的文本到视频生成模型，Emu Video使用扩散模型根据文本提示创建视频，首先生成图像，然后根据文本和生成的图像创建视频。

Ai视频生成 2025年06月05日 40 点赞 0 评论 524 浏览

书生·筑梦2.0（Vchitect 2.0）

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型，支持文本到视频和图像到视频的转换，生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架，适用于广告、教育、影视等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 524 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期