扩散模型 - 智狐AI导航

DistriFusion

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理，它能够在不增加额外训练负担的情况下，将推理速度提升高达六倍，同时保持图像质量。其技术原理包括Patch Parallelism（分片并行）、异步通信、位移补丁并行性等，适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

AI项目与工具 2025年06月12日 50 点赞 0 评论 376 浏览

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题，并采用部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

AI项目与工具 2025年06月11日 11 点赞 0 评论 375 浏览

Allegro

Allegro 是一款由 Rhymes AI 开发的文本到视频生成工具，可将描述性文本快速转化为高质量的动态视频内容。支持 720p 分辨率、15 FPS 帧率和最长 6 秒的视频输出，具有高时间一致性，适用于内容创作、广告营销、教育培训等多个领域，凭借先进的技术架构和强大的功能，成为视频生成领域的领先解决方案之一。

AI项目与工具 2025年06月12日 41 点赞 0 评论 374 浏览

MakeAnything

MakeAnything是由新加坡国立大学Show Lab团队开发的多领域程序性序列生成框架，能够根据文本或图像生成高质量的分步教程。它采用扩散变换器和ReCraft模型，支持从文本到过程和从图像到过程的双向生成。覆盖21个领域，包含超24,000个标注序列，具备良好的逻辑连贯性和视觉一致性，适用于教育、艺术、工艺传承及内容创作等多种场景。

AI项目与工具 2025年06月12日 85 点赞 0 评论 374 浏览

DreamVideo

DreamVideo-2是一款由复旦大学和阿里巴巴集团等机构共同开发的零样本视频生成框架，能够利用单一图像及界定框序列生成包含特定主题且具备精确运动轨迹的视频内容。其核心特性包括参考注意力机制、混合掩码参考注意力、重加权扩散损失以及基于二值掩码的运动控制模块，这些技术共同提升了主题表现力和运动控制精度。DreamVideo-2已在多个领域如娱乐、影视制作、广告营销、教育及新闻报道中展现出广泛应用前

AI项目与工具 2025年06月12日 65 点赞 0 评论 372 浏览

FramePainter

FramePainter 是一款基于AI的交互式图像编辑工具，结合视频扩散模型与草图控制技术，支持用户通过简单操作实现精准图像修改。其核心优势包括高效训练机制、强泛化能力及高质量输出。适用于概念艺术、产品展示、社交媒体内容创作等场景，具备低训练成本和自然的图像变换能力。

AI项目与工具 2025年06月12日 70 点赞 0 评论 367 浏览

Firefly Image Model 4

Firefly Image Model 4 是 Adobe 推出的图像生成模型，支持高分辨率（最高2K）图像生成，并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术，包括 GAN 和 Diffusion Model，能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

AI项目与工具 2025年06月11日 27 点赞 0 评论 366 浏览

LDGen

LDGen是一款结合大型语言模型与扩散模型的文本到图像生成工具，支持零样本多语言生成，提升图像质量和语义一致性。通过分层字幕优化、LLM对齐模块和跨模态精炼器，实现文本与图像的高效交互。实验表明其性能优于现有方法，适用于艺术创作、广告设计、影视制作等多个领域，具备高效、灵活和高质量的生成能力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 363 浏览

RSIDiff

RSIDiff 是一种基于递归自训练的文本到图像生成优化框架，通过高质量提示构建、偏好采样和分布加权机制，提升图像质量和与人类偏好的对齐度，减少训练崩溃风险。它具备自演化能力，降低对大规模数据的依赖，广泛应用于艺术创作、广告设计、VR/AR、游戏开发等领域。

AI项目与工具 2025年06月12日 49 点赞 0 评论 359 浏览

DynamicFace

DynamicFace是由小红书团队开发的视频换脸技术，结合扩散模型与时间注意力机制，基于3D面部先验知识实现高质量、一致性的换脸效果。通过四种精细的面部条件分解和身份注入模块，确保换脸后的人脸在不同表情和姿态下保持一致性。该技术适用于视频与图像换脸，广泛应用于影视制作、虚拟现实、社交媒体等内容创作领域，具备高分辨率生成能力和良好的时间连贯性。

AI项目与工具 2025年06月12日 84 点赞 0 评论 357 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期