扩散模型 - 智狐AI导航

LLaDA

LLaDA是一款基于扩散模型框架的新型大型语言模型，由中国人民大学高瓴AI学院与蚂蚁集团联合开发。它通过正向掩蔽和反向恢复机制建模文本分布，采用Transformer作为掩蔽预测器，优化似然下界提升生成效果。LLaDA在上下文学习、指令遵循和双向推理方面表现突出，尤其在反转推理任务中克服了传统自回归模型的局限。其8B参数版本在多项基准测试中表现优异，适用于多轮对话、文本生成、代码生成、数学推理和语

AI项目与工具 2025年06月12日 66 点赞 0 评论 639 浏览

Lemon Slice Live

Lemon Slice Live 是一款基于扩散变换器模型（DiT）的实时视频聊天工具，可将图片转化为可互动的动画角色，支持多语言和实时对话。通过优化模型提升流畅度与响应速度，适用于娱乐、教育、营销等多种场景，结合语音识别、文本生成等技术，提供完整的交互体验。

AI项目与工具 2025年06月11日 61 点赞 0 评论 641 浏览

SongCreator

SongCreator是一款基于AI技术的音乐生成工具，由清华大学深圳国际研究生院与香港中文大学等机构联合开发。它采用双序列语言模型（DSLM）和注意力掩码策略，支持歌词到歌曲、歌词到声乐、伴奏到歌曲等多种音乐生成任务，并允许用户灵活调整生成内容的声学特性。SongCreator适用于音乐制作、教育、娱乐、内容创作等多个领域，为用户提供高效便捷的音乐解决方案。

AI项目与工具 2025年06月12日 88 点赞 0 评论 641 浏览

BlockDance

BlockDance是由复旦大学与字节跳动联合开发的扩散模型加速技术，通过识别结构相似的时空特征（STSS）减少冗余计算，提升推理效率达25%-50%。结合强化学习的BlockDance-Ada模块实现动态资源分配，平衡速度与质量。适用于图像、视频生成及实时应用，支持多种模型，兼顾高效与高质，适用于资源受限环境。

AI项目与工具 2025年06月12日 38 点赞 0 评论 642 浏览

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架，能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动，创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频，具有低延迟的特点，并且能够处理多种类型的输入，如艺术照片、歌唱音频和非英语语音。此外，通过灵活的生成控制，用户可以调整输出的多样性和适应性。

AI项目与工具 2025年06月12日 83 点赞 0 评论 643 浏览

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具，结合3D人体重建与扩散模型技术，支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力，适用于游戏、影视、体育及时尚等领域，具备高保真度与真实感。

AI项目与工具 2025年06月12日 36 点赞 0 评论 643 浏览

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具，通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整，并采用扩散模型生成高质量视频内容。具备用户友好的交互方式，适用于视频编辑、游戏开发、教育及广告等多个场景。

AI项目与工具 2025年06月12日 74 点赞 0 评论 644 浏览

OOTDiffusion

OOTDiffusion是一款开源AI虚拟试衣工具，支持根据用户上传的模特和服装图片生成自然贴合的试穿效果，具有智能适配、多种试穿模式及快速生成等特点。它通过预训练扩散模型、Outfitting UNet、Outfitting Fusion等技术实现高质量服装图像生成，适用于电商、设计、定制服务等多个领域。

AI项目与工具 2025年06月12日 81 点赞 0 评论 646 浏览

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

UniVG

百度公司推出的视频生成模型，能够以文本和图像的任意组合作为输入条件进行视频生成。

Ai开源项目 2025年06月05日 22 点赞 0 评论 649 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期