扩散模型 - 智狐AI导航

DreamTalk

一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话，支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。

Ai开源项目 2025年06月05日 98 点赞 0 评论 473 浏览

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型，结合自回归与扩散模型优势，实现高效图像理解和生成。基于CLIP语义特征，支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略，提升模型性能。完全开源，适用于创意设计、视觉问答、艺术生成等多种场景。

AI项目与工具 2025年06月11日 12 点赞 0 评论 469 浏览

SANA 1.5

SANA 1.5是由英伟达联合多所高校研发的高效线性扩散变换器，专用于文本到图像生成任务。其核心优势包括高效的训练扩展、模型深度剪枝、推理时扩展等技术，能够在不同计算预算下灵活调整模型性能。支持多语言输入，并具备开源特性，适用于创意设计、影视制作、教育等多个领域。实验表明，其生成质量接近行业领先水平，同时显著降低计算成本。

AI项目与工具 2025年06月12日 56 点赞 0 评论 468 浏览

StableAnimator是一款由复旦大学、微软亚洲研究院、虎牙公司及卡内基梅隆大学联合开发的高质量身份保持视频生成框架。它能够根据参考图像和姿态序列，直接生成高保真度、身份一致的视频内容，无需后处理工具。框架集成了图像与面部嵌入计算、全局内容感知面部编码器、分布感知ID适配器以及Hamilton-Jacobi-Bellman方程优化技术，确保生成视频的流畅性和真实性。StableAnimato

AI项目与工具 2025年06月12日 14 点赞 0 评论 464 浏览

PersonaMagic

PersonaMagic 是一种基于文本条件策略的人脸生成技术，通过动态嵌入学习和双平衡机制实现高保真个性化图像生成。该工具可依据文本提示调整人脸风格、表情和背景，同时保持身份特征。支持单图像训练，降低数据需求，并可与其他模型结合使用。实验显示其在文本对齐和身份保持方面表现优异，适用于娱乐、游戏、影视及营销等多个领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 459 浏览

BrushNet

BrushNet是一款基于扩散模型的图像修复工具，采用双分支架构处理遮罩区域。它能够实现像素级修复，保持修复区域与原始图像的一致性和高质量。BrushNet适用于多种场景和风格的图像，包括人类、动物、室内和室外场景，以及自然图像、铅笔画、动漫、插画和水彩画等。通过与预训练扩散模型结合，BrushNet提供灵活的修复控制，同时保留未遮罩区域的细节。

AI项目与工具 2024年01月01日 55 点赞 0 评论 457 浏览

Boximator

Boximator是一种视频合成技术，通过引入硬框和软框实现对视频中对象的位置、形状或运动路径的精细控制。它基于视频扩散模型，通过多阶段训练和自跟踪技术，确保视频合成过程中的高质量和逼真度。应用场景包括电影和电视制作、游戏开发以及VR和AR内容创作。

AI项目与工具 2024年02月20日 89 点赞 0 评论 453 浏览

Neo

Neo-1 是 VantAI 开发的全球首个整合从头分子生成与原子级结构预测的 AI 模型，支持多模态输入，提升药物设计效率与准确性。该模型基于大规模训练和定制数据集，具备精准生成分子和预测结构的能力，适用于分子胶设计、蛋白质复合物预测及抗体发现等多个领域，推动结构生物学发展。

AI项目与工具 2025年06月12日 76 点赞 0 评论 451 浏览

Leffa

Leffa是一种基于注意力机制的可控人物图像生成框架，通过流场学习精确控制人物的外观和姿势。其核心技术包括正则化损失函数、空间一致性及模型无关性，能够在保持细节的同时提升图像质量。Leffa广泛应用于虚拟试穿、增强现实、游戏开发及影视后期制作等领域，展现出卓越的性能与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 451 浏览

HumanDiT

HumanDiT是一种由浙江大学与字节跳动联合开发的高保真人体视频生成框架，基于扩散变换器（DiT）实现姿态引导的视频生成。它支持长序列、多分辨率视频生成，并通过关键点扩散变换器（Keypoint-DiT）确保动作的连贯性与自然性。引入前缀潜在参考策略以保持个性化特征，结合姿态适配器和细化模块提升细节质量。适用于虚拟人、动画制作、沉浸式体验及视频续写等多种场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 448 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期