扩散模型 - 智狐AI导航

MegaTTS 3

MegaTTS 3是由字节跳动与浙江大学合作开发的零样本文本到语音合成系统，采用轻量级扩散模型，支持中英文及混合语音合成，具备语音克隆、音色控制、韵律调节等功能。系统通过分解语音属性实现精准建模，可快速生成高质量语音，适用于教育、内容制作、语音交互等多个领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 652 浏览

LucidDreamer

LucidDreamer，可以从单个图像的单个文本提示中生成可导航的3D场景。单击并拖动（导航）/移动和滚动（缩放）以感受3D。

Ai开源项目 2025年06月05日 73 点赞 0 评论 652 浏览

VPP

VPP（Video Prediction Policy）是清华大学与星动纪元联合开发的AIGC机器人模型，基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习，显著降低对真实数据的依赖。在复杂任务中表现出色，适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

AI项目与工具 2025年06月11日 61 点赞 0 评论 651 浏览

UniVG

百度公司推出的视频生成模型，能够以文本和图像的任意组合作为输入条件进行视频生成。

Ai开源项目 2025年06月05日 22 点赞 0 评论 649 浏览

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

OOTDiffusion

OOTDiffusion是一款开源AI虚拟试衣工具，支持根据用户上传的模特和服装图片生成自然贴合的试穿效果，具有智能适配、多种试穿模式及快速生成等特点。它通过预训练扩散模型、Outfitting UNet、Outfitting Fusion等技术实现高质量服装图像生成，适用于电商、设计、定制服务等多个领域。

AI项目与工具 2025年06月12日 81 点赞 0 评论 646 浏览

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具，通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整，并采用扩散模型生成高质量视频内容。具备用户友好的交互方式，适用于视频编辑、游戏开发、教育及广告等多个场景。

AI项目与工具 2025年06月12日 74 点赞 0 评论 644 浏览

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架，能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动，创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频，具有低延迟的特点，并且能够处理多种类型的输入，如艺术照片、歌唱音频和非英语语音。此外，通过灵活的生成控制，用户可以调整输出的多样性和适应性。

AI项目与工具 2025年06月12日 83 点赞 0 评论 643 浏览

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具，结合3D人体重建与扩散模型技术，支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力，适用于游戏、影视、体育及时尚等领域，具备高保真度与真实感。

AI项目与工具 2025年06月12日 36 点赞 0 评论 643 浏览

BlockDance

BlockDance是由复旦大学与字节跳动联合开发的扩散模型加速技术，通过识别结构相似的时空特征（STSS）减少冗余计算，提升推理效率达25%-50%。结合强化学习的BlockDance-Ada模块实现动态资源分配，平衡速度与质量。适用于图像、视频生成及实时应用，支持多种模型，兼顾高效与高质，适用于资源受限环境。

AI项目与工具 2025年06月12日 38 点赞 0 评论 642 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期