扩散模型 - 智狐AI导航

EasyControl Ghibli

EasyControl Ghibli 是一款基于扩散模型的 AI 工具，专注于将普通图像转换为吉卜力风格，具备风格迁移、面部特征保留、高效运行等优点。它通过少量数据训练即可生成高质量图像，适用于插画、动画、广告及个人照片风格化等多种场景。用户可免费使用，操作便捷，适合艺术创作与内容生成需求。

AI项目与工具 2025年06月12日 40 点赞 0 评论 609 浏览

Neo

Neo-1 是 VantAI 开发的全球首个整合从头分子生成与原子级结构预测的 AI 模型，支持多模态输入，提升药物设计效率与准确性。该模型基于大规模训练和定制数据集，具备精准生成分子和预测结构的能力，适用于分子胶设计、蛋白质复合物预测及抗体发现等多个领域，推动结构生物学发展。

AI项目与工具 2025年06月12日 76 点赞 0 评论 570 浏览

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 652 浏览

Bolt3D

Bolt3D是由谷歌研究院、牛津大学VGG团队与谷歌DeepMind联合开发的3D场景生成技术，基于潜在扩散模型，能在单块GPU上仅需6.25秒生成高质量3D场景。支持多视角输入，具备良好泛化能力，采用高斯溅射技术实现高保真表示，并支持实时交互。适用于游戏开发、VR/AR、建筑设计和影视制作等领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 768 浏览

BlockDance

BlockDance是由复旦大学与字节跳动联合开发的扩散模型加速技术，通过识别结构相似的时空特征（STSS）减少冗余计算，提升推理效率达25%-50%。结合强化学习的BlockDance-Ada模块实现动态资源分配，平衡速度与质量。适用于图像、视频生成及实时应用，支持多种模型，兼顾高效与高质，适用于资源受限环境。

AI项目与工具 2025年06月12日 38 点赞 0 评论 642 浏览

InfiniteYou

InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架，通过 InfuseNet 注入身份特征，确保生成图像与输入图像的高度相似。结合多阶段训练策略，提升文本与图像对齐、图像质量和美学效果。支持插件化设计，兼容多种工具，适用于社交媒体、影视制作、广告营销等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 492 浏览

Shining Yourself

Shining Yourself是商汤科技推出的高保真饰品虚拟试戴技术，基于扩散模型实现逼真试戴效果。支持多饰品、个性化调整、多场景模拟及动态展示，适用于电商、设计、社交及品牌推广等场景，提升用户体验与决策效率。

AI项目与工具 2025年06月12日 58 点赞 0 评论 774 浏览

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型，支持多模态输入并具备复杂任务执行能力。采用双系统架构，结合视觉-语言模型与扩散变换器，实现精准动作控制。基于大规模数据训练，适应多种机器人形态和任务场景，广泛应用于物流、制造、医疗等领域，提升自动化水平与操作效率。

AI项目与工具 2025年06月12日 62 点赞 0 评论 599 浏览

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 456 浏览

VACE

VACE是由阿里巴巴通义实验室推出的视频生成与编辑框架，支持文本到视频、参考生成、视频扩展、遮罩编辑等多种任务。其核心是Video Condition Unit（VCU），可整合多模态输入，实现任务灵活组合。支持480P和720P分辨率，适用于创意视频制作、视频修复、风格转换及互动创作等场景，具备高灵活性和广泛的应用潜力。

AI项目与工具 2025年06月12日 33 点赞 0 评论 584 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期