扩散模型 - 智狐AI导航

Imagen【推荐试用】

我们提出了Imagen，一个文本到图像的扩散模型，具有前所未有的写实主义程度和深度的语言理解。

Ai绘画生成 1970年01月01日 0 点赞 0 评论 269 浏览

AnyText

一个创新的多语言视觉文本生成和编辑工具，利用先进的扩散模型技术，能够准确生成和编辑图像中的文本。它不仅支持多种语言和文本风格，还能在复杂的图像背景中保持文本的清晰度和...

Ai平台模型 1970年01月01日 0 点赞 0 评论 273 浏览

MGIE

MGIE 是苹果团队开源的一款 AI 图像编辑工具，它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令，MGIE 便能够自动进行图像编辑，实现用户所需的...

Ai绘画生成 1970年01月01日 0 点赞 0 评论 290 浏览

HandRefiner

解决AI图像生成中手部畸形的问题目前的图像生成模型，再生成图像方面已经非常出色，但在生成人类手部的图像时却常常出现问题，比如手指数量不对或者手形怪异。

Ai开源项目 2025年06月05日 27 点赞 0 评论 416 浏览

LayerDiffusion是一种创新的AI工具，利用大规模预训练的潜在扩散模型生成具有透明度的图像。该技术引入了“潜在透明度”的概念，将图像的alpha通道透明度信息编码到潜在空间中。LayerDiffusion不仅可以生成单个透明图像，还能生成多个透明图层，支持条件控制生成和图层内容结构控制，确保高质量的图像输出。此外，它还能够生成多个透明图层，并通过共享注意力机制和低秩适应确保图层间的和谐混

AI项目与工具 2024年01月01日 69 点赞 0 评论 417 浏览

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎，它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面，使大多数玩家难以分辨真假。该工具无需编程，简化了开发流程，同时具备高逼真度和交互式体验，为游戏创作提供了新的可能性。除了游戏开发，它还能应用于虚拟现实、自动驾驶等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 420 浏览

Diffusion Self

Diffusion Self-Distillation (DSD) 是一种基于预训练文本到图像扩散模型的零样本定制图像生成技术，通过自动生成数据集并微调模型，支持文本条件下的图像到图像转换任务。其核心在于利用生成图像网格与视觉语言模型筛选高质量配对数据集，实现无需人工干预的身份保持定制化图像生成。该技术广泛应用于艺术创作、游戏开发、影视制作、广告营销及个性化商品等领域。

AI项目与工具 2025年06月12日 68 点赞 0 评论 423 浏览

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型，可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构，结合ControlMLP模块与注意力偏差技术，实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全，适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程，确保生成质量与稳定性。

AI项目与工具 2025年06月12日 38 点赞 0 评论 428 浏览

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术，通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧，以及高精度音频同步。该工具支持多样化动作生成，适用于虚拟现实、动画制作和跨语言内容创作等场景，具备自然流畅的视觉效果和丰富的应用场景。

AI项目与工具 2025年06月12日 62 点赞 0 评论 433 浏览

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具，结合精确语义定位策略与视觉、文本自注意力优化，提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型，支持复杂场景下的精细编辑任务，如对象替换、颜色调整等，适用于广告、影视、社交媒体等多个领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 436 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期