LCVD(Lighting Controllable Video Diffusion Model)是由四川大学研发的一种高保真、光照可控的肖像动画生成框架。该模型通过分离肖像的内在特征(如身份和外观)与外在特征(如姿态和光照),并利用参考适配器和阴影适配器将这些特征映射到不同的子空间中。在生成过程中,LCVD结合多个特征子空间,并借助多条件分类器自由引导机制,实现对光照效果的精细控制,同时保持肖像的身份和外观特征。该模型基于稳定的视频扩散模型(SVD),能够生成与驱动视频姿态一致且符合目标光照条件的高质量肖像动画。LCVD在光照真实感、图像质量和视频一致性方面表现优异,为虚拟现实、视频会议及影视制作等领域提供了强有力的技术支持。
LCVD的主要功能
- 肖像动画化:将静态肖像转化为动态视频,匹配驱动视频中的头部动作和表情。
- 光照控制:根据用户指定或参考图像的光照条件,对肖像进行重打光。
- 身份与外观保留:在动画和重打光过程中,保持肖像的身份和外观特征。
- 高质量视频生成:生成的视频在光照真实感、图像质量和视频一致性方面表现优异,适用于多种应用场景。
LCVD的技术原理
- 特征分离:通过参考适配器和阴影适配器,分别将内在特征(身份和外观)与外在特征(光照和姿态)映射至不同特征空间,实现独立控制。
- 光照可控的扩散模型:基于稳定视频扩散模型,采用多条件分类器自由引导机制调整光照效果,实现精细化控制。
- 运动对齐与长视频生成:通过运动对齐模块确保姿态一致性,并利用采样方法生成任意长度的视频。
- 训练与优化:采用自监督学习优化模型,并通过LPIPS、FID等指标评估和提升视频质量。
LCVD的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2502.19894
LCVD的应用场景
- 虚拟现实(VR)和增强现实(AR):用于创建逼真的虚拟角色。
- 视频会议:提升视频质量并降低带宽需求。
- 影视制作:生成符合特定光照条件的肖像动画。
- 游戏开发:增强虚拟角色的真实感。
- 社交媒体和内容创作:支持个性化动态头像或短视频生成。
发表评论 取消回复