HumanDiT

简介：HumanDiT是一种由浙江大学与字节跳动联合开发的高保真人体视频生成框架，基于扩散变换器（DiT）实现姿态引导的视频生成。它支持长序列、多分辨率视频生成，并通过关键点扩散变换器（Keypoint-DiT）确保动作的连贯性与自然性。引入前缀潜在参考策略以保持个性化特征，结合姿态适配器和细化模块提升细节质量。适用于虚拟人、动画制作、沉浸式体验及视频续写等多种场景。

AI小编 404 阅读 0 评论 41 点赞

官网地址

HumanDiT是什么

HumanDiT是由浙江大学与字节跳动联合研发的一种基于扩散变换器（Diffusion Transformer，DiT）的视频生成框架，专注于人体姿态引导的高保真视频生成。该框架在大规模数据集上进行训练，能够生成具有精细身体渲染的长序列人体运动视频。其核心优势在于姿态引导机制，通过关键点扩散变换器（Keypoint-DiT）生成后续姿态序列，确保动作的连贯性和自然性。同时，采用前缀潜在参考策略以保持长序列中的个性化特征。HumanDiT支持多种分辨率和可变序列长度，适用于长序列视频生成任务，并通过姿态适配器实现姿态转移，提升姿态对齐精度。

HumanDiT的主要功能

姿态引导的视频生成：通过关键点扩散变换器（Keypoint-DiT）生成后续姿态序列，确保视频中人体动作的连贯性和自然性。
长序列视频生成：支持多种视频分辨率和可变序列长度，适合生成高质量的长序列视频。
个性化特征保持：利用前缀潜在参考策略，在长序列中维持个性化特征。
灵活的输入与输出：支持从静态图像或现有视频中继续生成视频，适应多种应用场景。
姿态适配与细化：通过姿态适配器实现姿态转移，并借助姿态细化模块优化面部和手部等细节的对齐效果。

HumanDiT的技术原理

姿态引导与扩散变换器：HumanDiT通过姿态引导方式生成视频，基于关键点扩散变换器（Keypoint-DiT）在推理阶段生成后续姿态序列，确保动作的连贯性和自然性，同时支持不同分辨率和序列长度。
前缀潜在参考策略：为保持长序列视频中的个性化特征，模型引入前缀潜在参考策略，通过第一帧作为无噪声前缀向量供模型参考，确保视觉一致性。
姿态适配器与姿态细化模块：使用姿态适配器实现姿态转移，并通过姿态细化模块增强面部和手部等细节部位的生成质量。
大规模数据集训练：HumanDiT在包含14000小时高质量视频的数据集上训练，涵盖多种人体动作场景，使模型具备强大的泛化能力。

HumanDiT的项目地址

项目官网：https://agnjason.github.io/HumanDiT-page/
arXiv技术论文：https://arxiv.org/pdf/2502.04847

HumanDiT的应用场景

虚拟人：可用于生成自然流畅的虚拟人动态视频，适用于虚拟客服等交互场景。
动画电影：适用于生成动画角色的动作序列，提高动画制作效率。
沉浸式体验：可用于构建VR环境中的虚拟角色动作，提升沉浸感。
视频生成与续写：支持从单张图像生成视频，或从已有视频中延续生成内容。

本文分类：AI项目与工具
本文标签：AI视频生成姿态引导扩散模型人体动作生成长序列视频虚拟人动画制作视频续写姿态适配深度学习
浏览次数：404 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8978.html

评论列表共有 0 条评论

暂无评论