扩散模型 - 智狐AI导航

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架，能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差（TAB）和实体区域感知增强（ERAE），有效提升视频的时间连贯性和语义一致性。支持多种应用场景，如艺术设计、广告营销、影视制作等，具备高效、精准和可扩展的特点。

AI项目与工具 2025年06月12日 98 点赞 0 评论 536 浏览

VISION XL

VISION XL是一款基于潜在扩散模型的视频修复与超分辨率工具，支持视频去模糊、超分辨率提升、视频修复及帧平均等功能。它采用伪批一致性采样、批量一致性反演等技术，显著提高了处理效率和视频质量。VISION XL广泛应用于电影修复、监控视频增强、体育赛事直播等领域，能够满足高质量视频需求。

AI项目与工具 2025年06月12日 84 点赞 0 评论 528 浏览

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术，基于扩散模型并引入单向块注意力机制（UniBA），有效降低内存消耗，支持超高分辨率图像生成。其采用扩散变换器（DiT）架构，具备灵活的图像上采样能力，并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 84 点赞 0 评论 526 浏览

书生·筑梦2.0（Vchitect 2.0）

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型，支持文本到视频和图像到视频的转换，生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架，适用于广告、教育、影视等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 525 浏览

Emu Video

Meta开发的文本到视频生成模型，Emu Video使用扩散模型根据文本提示创建视频，首先生成图像，然后根据文本和生成的图像创建视频。

Ai视频生成 2025年06月05日 40 点赞 0 评论 524 浏览

MDM

Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架，通过嵌套UNet架构实现多分辨率联合去噪，支持从低分辨率到高分辨率的渐进式训练，显著提升高分辨率图像生成效率，适用于多种应用场景，如数字艺术创作、游戏开发、电影制作等，并具备出色的零样本泛化能力。

AI项目与工具 2025年06月12日 28 点赞 0 评论 523 浏览

PromptFix

PromptFix是一款基于扩散模型的开源AI图像修复工具，支持多种图像处理任务，如上色、物体移除、去雾、去模糊等。它通过20步去噪过程精确修复图像缺陷，同时保持图像结构完整性和泛化能力。PromptFix具备高频细节保护、辅助提示适配器、零样本学习能力和大规模数据集构建等特点，适用于个人照片编辑、专业摄影、数字艺术创作、媒体广告及电影制作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 523 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 521 浏览

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具，通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略，确保编辑内容自然融合，保留原始细节。支持真实图像和多部分同时编辑，无需重新训练模型，适用于艺术设计、影视制作、广告等多个领域。

AI项目与工具 2025年06月12日 59 点赞 0 评论 518 浏览

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架，由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导，提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态，提供高分辨率基准数据集HR-VVT，适用于在线购物、时尚设计、影视制作等多个领域。

AI项目与工具 2025年06月11日 60 点赞 0 评论 515 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期