扩散模型 - 智狐AI导航

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 392 浏览

VISION XL

VISION XL是一款基于潜在扩散模型的视频修复与超分辨率工具，支持视频去模糊、超分辨率提升、视频修复及帧平均等功能。它采用伪批一致性采样、批量一致性反演等技术，显著提高了处理效率和视频质量。VISION XL广泛应用于电影修复、监控视频增强、体育赛事直播等领域，能够满足高质量视频需求。

AI项目与工具 2025年06月12日 84 点赞 0 评论 391 浏览

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术，基于扩散模型并引入单向块注意力机制（UniBA），有效降低内存消耗，支持超高分辨率图像生成。其采用扩散变换器（DiT）架构，具备灵活的图像上采样能力，并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 84 点赞 0 评论 390 浏览

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架，基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动，适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构，提升生成效果与稳定性，广泛应用于影视、游戏、教育、广告等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 389 浏览

SwiftBrush V2

SwiftBrush V2 是一款基于文本到图像的单步扩散模型，通过改进权重初始化、LoRA训练及夹紧CLIP损失等技术，实现了与多步Stable Diffusion模型相媲美的性能。它无需真实图像数据即可训练，显著提升了生成速度和图像质量，广泛应用于艺术创作、游戏开发、虚拟现实等领域。

AI项目与工具 2025年06月12日 21 点赞 0 评论 383 浏览

ConsistentDreamer

ConsistentDreamer 是由华为慕尼黑研究中心开发的图像到 3D 资产生成技术，能通过单张图像生成多视图一致的 3D 网格。该技术采用多视图先验图像引导和分数蒸馏采样优化，结合动态权重平衡和多种损失函数，提升 3D 表面质量和纹理精度。支持复杂场景编辑、风格转换、物体修改等功能，适用于室内场景、艺术风格转换及跨视图一致性任务。

AI项目与工具 2025年06月12日 60 点赞 0 评论 380 浏览

DICE

DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架，能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模，结合情感关联增强和判别机制，确保生成内容的情感一致性与视觉质量。该工具支持多模态输入，具备良好的泛化能力和用户自定义功能，适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

AI项目与工具 2025年06月11日 87 点赞 0 评论 379 浏览

PartEdit

PartEdit是一种基于预训练扩散模型的细粒度图像编辑工具，通过优化部分标记实现对图像对象各部分的精准定位与编辑。其采用非二进制掩码和自适应阈值策略，确保编辑内容自然融合，保留原始细节。支持真实图像和多部分同时编辑，无需重新训练模型，适用于艺术设计、影视制作、广告等多个领域。

AI项目与工具 2025年06月12日 59 点赞 0 评论 378 浏览

Emu Video

Meta开发的文本到视频生成模型，Emu Video使用扩散模型根据文本提示创建视频，首先生成图像，然后根据文本和生成的图像创建视频。

Ai视频生成 2025年06月05日 40 点赞 0 评论 377 浏览

FantasyID

FantasyID是由阿里巴巴集团与北京邮电大学联合开发的视频生成框架，基于扩散变换器和3D面部几何先验，实现高质量、身份一致的视频生成。其通过多视角增强和分层特征注入技术，提升面部动态表现，同时保持身份稳定性。支持多种应用场景，如虚拟形象、内容创作和数字人交互，具备无需微调的高效生成能力。

AI项目与工具 2025年06月12日 81 点赞 0 评论 377 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期