DiffuEraser简介

DiffuEraser是一种基于稳定扩散模型的视频修复工具,旨在通过更丰富的细节和更连贯的结构填充视频中的遮罩区域。该模型结合先验信息进行初始化和弱条件设定,有助于减少噪声伪影并抑制视觉幻觉。为提升长序列推理中的时间一致性,DiffuEraser扩展了先验模型和自身的时间感受野,并利用视频扩散模型的时间平滑特性来增强整体一致性。其网络架构受到AnimateDiff的启发,将运动模块整合至图像修复模型中,主要由主去噪UNet和辅助的BrushNet组成。BrushNet接收由遮罩图像、遮罩和噪声潜变量构成的条件输入,并提取特征后逐层融合至去噪UNet中。此外,在自注意力和交叉注意力层之后引入了时间注意力机制,以进一步提升时间一致性。生成的图像最终通过模糊遮罩与原始遮罩图像进行融合。

DiffuEraser的核心功能

  • 未知像素生成:依托稳定扩散模型的强大能力,DiffuEraser可为视频中未出现的像素生成具有丰富细节和纹理的内容,有效解决传统Transformer模型在处理大范围遮罩时出现的模糊和马赛克问题。
  • 已知像素传播:通过运动模块和先验模型的增强能力,确保已知像素在不同帧之间一致传播,避免修复内容与未遮罩区域产生冲突,提高结果的准确性和稳定性。
  • 时间一致性维护:通过扩展先验模型和自身的时间感受野,结合视频扩散模型的时间平滑特性,增强所有帧之间的内容一致性。
  • 先验信息注入:通过注入先验信息提供初始化和弱条件,有助于降低噪声伪影和视觉幻觉,提升修复结果的真实度。
  • 网络架构优化:受AnimateDiff启发,将运动模块集成至图像修复模型BrushNet中,并在自注意力和交叉注意力层后引入时间注意力机制,进一步强化时间一致性。

DiffuEraser的技术原理

  • 网络架构:DiffuEraser的架构基于AnimateDiff设计,包含主去噪UNet和辅助BrushNet。BrushNet接收遮罩图像、遮罩及噪声潜变量作为输入,提取特征后逐层融合至去噪UNet。模型在自注意力和交叉注意力层后加入时间注意力机制,以提升时间一致性,最后通过模糊遮罩与原始图像融合。
  • 视频修复问题分解:DiffuEraser将视频修复任务划分为三个子问题:已知像素的传播、未知像素的生成以及内容时间一致性维护。
  • 时间一致性优化策略
    • 扩展先验模型时间感受野:通过预传播和预推理,使先验模型能够在整个时间域内传播已知像素,确保内容与未遮罩区域的一致性。
    • 扩展自身时间感受野:通过预推理,使DiffuEraser能够处理更多视频帧,确保长序列推理中内容的一致性。

DiffuEraser项目信息

DiffuEraser的应用场景

  • 影视后期制作:可用于修复视频遮罩区域,提升画质,支持去模糊和超分辨率处理。
  • 老电影修复:能去除胶片划痕、灰尘等瑕疵,提升画面清晰度。
  • 监控视频增强:提升视频清晰度,便于细节识别。
  • 视频内容转换:支持SD到HD或4K的分辨率转换。
  • 体育赛事直播:用于实时视频流增强,提升观看体验。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部