扩散模型 - 智狐AI导航

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 659 浏览

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具，能够利用多个文本提示生成连贯且高质量的视频内容，无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡，同时在MPVBench基准上表现出色，适用于电影、游戏、广告及新闻等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 646 浏览

PartGen

PartGen是一款基于多视图扩散模型的3D对象生成与重建工具，可从文本、图像或现有3D模型生成由意义明确部分组成的三维对象。它具备自动部分分割、3D重建及基于文本指令的部分编辑等功能，广泛应用于3D打印、游戏开发、影视制作等领域，显著提升工作效率并优化用户体验。

AI项目与工具 2025年06月12日 74 点赞 0 评论 728 浏览

Wonderland

Wonderland是一项由多伦多大学、Snap和UCLA联合开发的技术，能够基于单张图像生成高质量的3D场景，并支持精确的摄像轨迹控制。它结合了视频扩散模型和大规模3D重建模型，解决了传统3D重建技术中的视角失真问题，实现了高效的三维场景生成。Wonderland在多个基准数据集上的3D场景重建质量均优于现有方法，广泛应用于建筑设计、虚拟现实、影视特效、游戏开发等领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 838 浏览

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术，基于扩散模型并引入单向块注意力机制（UniBA），有效降低内存消耗，支持超高分辨率图像生成。其采用扩散变换器（DiT）架构，具备灵活的图像上采样能力，并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 84 点赞 0 评论 520 浏览

VMix

VMix是一款提升文本到图像生成美学质量的工具，通过解耦文本内容与美学描述，并引入细粒度美学标签，增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块，可在不改变原有模型结构的情况下注入美学条件，保持图文一致性。VMix兼容多种扩散模型及社区模块，支持多源输入、高质量视频处理、实时直播与远程协作，广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 481 浏览

VideoAnydoor

VideoAnydoor是一款由多所高校与研究机构联合开发的视频对象插入系统，基于文本到视频的扩散模型，支持高保真对象插入与精确运动控制。其核心模块包括ID提取器和像素变形器，能实现对象的自然融合与细节保留。该工具适用于影视特效、虚拟试穿、虚拟旅游、教育等多个领域，具备良好的通用性和扩展性。

AI项目与工具 2025年06月12日 61 点赞 0 评论 636 浏览

PersonaMagic

PersonaMagic 是一种基于文本条件策略的人脸生成技术，通过动态嵌入学习和双平衡机制实现高保真个性化图像生成。该工具可依据文本提示调整人脸风格、表情和背景，同时保持身份特征。支持单图像训练，降低数据需求，并可与其他模型结合使用。实验显示其在文本对齐和身份保持方面表现优异，适用于娱乐、游戏、影视及营销等多个领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 556 浏览

InstructMove

InstructMove是由东京大学与Adobe合作开发的图像编辑模型，基于视频帧对变化学习如何根据指令进行图像操作。它能够执行非刚性编辑、视角调整和元素重排等任务，同时支持精确的局部编辑。该模型采用真实视频数据训练，提升编辑自然性与真实性，适用于影视、广告、设计等多个领域。其技术基于多模态语言模型和扩散模型，结合掩码和ControlNet等控制机制，实现灵活高效的图像编辑。

AI项目与工具 2025年06月12日 21 点赞 0 评论 627 浏览

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架，基于音频条件的潜在扩散模型，无需中间3D或2D表示，可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法，提升视频时间一致性，并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

AI项目与工具 2025年06月12日 95 点赞 0 评论 799 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期