扩散模型 - 智狐AI导航

Animate Anyone

Animate Anyone是一款由阿里巴巴智能计算研究院开发的开源框架，旨在将静态图像中的角色或人物动态化。它采用扩散模型，结合ReferenceNet、Pose Guider姿态引导器和时序生成模块等技术，确保输出的动态视频具有高度一致性和稳定性。该框架支持多种应用，包括角色动态化、时尚视频合成及人类舞蹈生成，用户可通过GitHub或Hugging Face社区轻松体验。

AI项目与工具 2025年06月12日 19 点赞 0 评论 921 浏览

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架，通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块：Audio2Lmk模块将音频转换为2D面部标记点，而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称，能够精确捕捉面部表情和嘴唇动作。

AI项目与工具 2025年06月12日 68 点赞 0 评论 900 浏览

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架，能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动，创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频，具有低延迟的特点，并且能够处理多种类型的输入，如艺术照片、歌唱音频和非英语语音。此外，通过灵活的生成控制，用户可以调整输出的多样性和适应性。

AI项目与工具 2025年06月12日 83 点赞 0 评论 738 浏览

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架，通过轨迹分割一致性蒸馏（TSCD）、人类反馈学习（ReFL）和分数蒸馏等技术，显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时，大幅减少了推理步骤，实现了快速生成高分辨率图像，推动了生成式AI技术的发展。

AI项目与工具 2025年06月12日 73 点赞 0 评论 527 浏览

AniTalker

AniTalker是一款先进的AI工具，能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态，采用通用运动表示和身份解耦技术减少对标记数据的依赖，同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式，并具备实时控制动画生成的能力。

AI项目与工具 2025年06月12日 62 点赞 0 评论 868 浏览

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 553 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 719 浏览

Diffutoon

Diffutoon是一款基于扩散模型的AI框架，旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理，能够实现风格化、一致性增强、结构引导和自动着色等功能。此外，Diffutoon具备内容编辑功能，用户可通过文本提示调整视频细节，确保视觉效果和内容的一致性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 795 浏览

FancyVideo

FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型，采用创新的跨帧文本引导模块（CTGM）。它能够根据文本描述生成连贯且动态丰富的视频内容，支持高分辨率视频输出，并保持时间上的连贯性。作为开源项目，FancyVideo提供了详尽的文档和代码库，便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。

AI项目与工具 2025年06月12日 28 点赞 0 评论 649 浏览

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制，在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑，实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性，支持实时编辑，并在文本引导下的图像编辑方面表现出色。

AI项目与工具 2025年06月12日 75 点赞 0 评论 828 浏览

扩散模型

首页

扩散模型

列表

默认

浏览次数

发布日期