扩散模型 - 智狐AI导航

Gendo

Gendo是一款结合生成式AI技术的建筑可视化平台，通过生成对抗网络（GANs）和扩散模型等手段，帮助设计师快速创建逼真的建筑概念图，并支持从草图到最终图像的全周期操作，具备生成性编辑、风格迁移和文本到图像生成等功能，旨在提升设计效率与视觉沟通质量。

AI项目与工具 2025年06月12日 34 点赞 0 评论 409 浏览

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架，它结合了基于扩散的图像生成技术和多模态大型语言模型（MLLM）。该工具能够根据用户提供的文本提示和角色图像，生成具有高精度和视觉吸引力的黑白漫画面板，支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等，广泛应用于漫画创作、个性化内容生成、教育和培训等领

AI项目与工具 2025年06月12日 47 点赞 0 评论 460 浏览

SVDQuant

SVDQuant是一种由MIT研究团队开发的后训练量化技术，专注于通过4位量化减少扩散模型的内存占用和推理延迟。它利用低秩分支技术吸收量化异常值，支持DiT和UNet架构，并能无缝集成LoRAs。SVDQuant适用于移动设备、个人电脑、云计算平台及低功耗设备，可大幅提升图像生成和处理效率。

AI项目与工具 2025年06月12日 76 点赞 0 评论 596 浏览

SnapGen

SnapGen是一款由Snap Inc、香港科技大学和墨尔本大学联合开发的文本到图像扩散模型，专为移动设备设计，支持在1.4秒内生成1024×1024像素的高分辨率图像。它通过优化网络架构、跨架构知识蒸馏和对抗性训练等技术，在保持小模型规模的同时，提供了高质量的图像生成能力，适用于社交媒体、移动应用、教育、新闻等多个领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 466 浏览

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型，拥有十亿参数量，可自主完成复杂任务，如调酒和遛狗。该模型基于模仿学习，具备强大的泛化能力和操作精度，支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景，推动机器人技术发展。

AI项目与工具 2025年06月12日 83 点赞 0 评论 675 浏览

Leffa

Leffa是一种基于注意力机制的可控人物图像生成框架，通过流场学习精确控制人物的外观和姿势。其核心技术包括正则化损失函数、空间一致性及模型无关性，能够在保持细节的同时提升图像质量。Leffa广泛应用于虚拟试穿、增强现实、游戏开发及影视后期制作等领域，展现出卓越的性能与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 408 浏览

LeviTor

LeviTor是一款由多所高校和企业联合研发的图像到视频合成工具，它利用深度信息和K-means聚类点来控制视频中3D物体的轨迹，无需显式3D轨迹跟踪。通过高质量视频对象分割数据集训练，该工具能精准捕捉物体运动与交互，支持用户通过简单的2D图像操作实现复杂的3D效果，大幅降低了技术门槛，广泛应用于电影特效、游戏动画、虚拟现实等领域。

AI项目与工具 2025年06月12日 52 点赞 0 评论 563 浏览

InvSR

InvSR是一款基于扩散模型逆过程开发的图像超分辨率工具，通过深度噪声预测器和灵活采样机制，从低分辨率图像恢复高质量高分辨率图像。它支持多种应用场景，包括文化遗产保护、视频监控、医疗成像及卫星影像分析，同时兼顾计算效率与性能表现。

AI项目与工具 2025年06月12日 14 点赞 0 评论 639 浏览

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术，通过提取响度、亮度和音高概率等控制信号，结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架，同时赋予声音设计师更强的表达力与可控性，广泛适用于电影、游戏、音乐制作及教育等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 639 浏览

3DHM

3DHM是一项由加州大学伯克利分校开发的3D人体动作生成技术，能够从单张照片生成动态人体视频，具备动作生成、编辑、评估、纹理修复、人体渲染及动作模仿等功能。该技术通过学习人体先验知识和3D运动序列，结合扩散模型和4DHumans预测模型，广泛应用于电影特效、虚拟现实、游戏开发等领域，为动画制作和人体动作模拟提供了创新解决方案。

AI项目与工具 2025年06月12日 13 点赞 0 评论 557 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期