DiffuEraser

简介：DiffuEraser是一款基于稳定扩散模型的视频修复工具，具备未知像素生成、已知像素传播、时间一致性维护等功能。通过集成运动模块和优化网络架构，它能有效提升视频修复质量，减少噪声和幻觉。适用于影视后期制作、老电影修复、监控视频增强等多个领域，支持高精度和高连贯性的视频内容修复与增强。

AI小编 844 阅读 0 评论 98 点赞

项目地址

DiffuEraser简介

DiffuEraser是一种基于稳定扩散模型的视频修复工具，旨在通过更丰富的细节和更连贯的结构填充视频中的遮罩区域。该模型结合先验信息进行初始化和弱条件设定，有助于减少噪声伪影并抑制视觉幻觉。为提升长序列推理中的时间一致性，DiffuEraser扩展了先验模型和自身的时间感受野，并利用视频扩散模型的时间平滑特性来增强整体一致性。其网络架构受到AnimateDiff的启发，将运动模块整合至图像修复模型中，主要由主去噪UNet和辅助的BrushNet组成。BrushNet接收由遮罩图像、遮罩和噪声潜变量构成的条件输入，并提取特征后逐层融合至去噪UNet中。此外，在自注意力和交叉注意力层之后引入了时间注意力机制，以进一步提升时间一致性。生成的图像最终通过模糊遮罩与原始遮罩图像进行融合。

DiffuEraser的核心功能

未知像素生成：依托稳定扩散模型的强大能力，DiffuEraser可为视频中未出现的像素生成具有丰富细节和纹理的内容，有效解决传统Transformer模型在处理大范围遮罩时出现的模糊和马赛克问题。
已知像素传播：通过运动模块和先验模型的增强能力，确保已知像素在不同帧之间一致传播，避免修复内容与未遮罩区域产生冲突，提高结果的准确性和稳定性。
时间一致性维护：通过扩展先验模型和自身的时间感受野，结合视频扩散模型的时间平滑特性，增强所有帧之间的内容一致性。
先验信息注入：通过注入先验信息提供初始化和弱条件，有助于降低噪声伪影和视觉幻觉，提升修复结果的真实度。
网络架构优化：受AnimateDiff启发，将运动模块集成至图像修复模型BrushNet中，并在自注意力和交叉注意力层后引入时间注意力机制，进一步强化时间一致性。

DiffuEraser的技术原理

网络架构：DiffuEraser的架构基于AnimateDiff设计，包含主去噪UNet和辅助BrushNet。BrushNet接收遮罩图像、遮罩及噪声潜变量作为输入，提取特征后逐层融合至去噪UNet。模型在自注意力和交叉注意力层后加入时间注意力机制，以提升时间一致性，最后通过模糊遮罩与原始图像融合。
视频修复问题分解：DiffuEraser将视频修复任务划分为三个子问题：已知像素的传播、未知像素的生成以及内容时间一致性维护。
时间一致性优化策略：
- 扩展先验模型时间感受野：通过预传播和预推理，使先验模型能够在整个时间域内传播已知像素，确保内容与未遮罩区域的一致性。
- 扩展自身时间感受野：通过预推理，使DiffuEraser能够处理更多视频帧，确保长序列推理中内容的一致性。

DiffuEraser项目信息

项目官网：https://lixiaowen-xw.github.io/DiffuEraser-page/
GitHub仓库：https://github.com/lixiaowen-xw/DiffuEraser
arXiv技术论文：https://arxiv.org/pdf/2501.10018

DiffuEraser的应用场景

影视后期制作：可用于修复视频遮罩区域，提升画质，支持去模糊和超分辨率处理。
老电影修复：能去除胶片划痕、灰尘等瑕疵，提升画面清晰度。
监控视频增强：提升视频清晰度，便于细节识别。
视频内容转换：支持SD到HD或4K的分辨率转换。
体育赛事直播：用于实时视频流增强，提升观看体验。

本文分类：AI项目与工具
本文标签：AI视频修复稳定扩散模型视频修复技术时间一致性图像生成运动模块网络架构优化老电影修复监控视频增强 arXiv论文
浏览次数：844 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9256.html

上一篇 > Minduck Discovery
下一篇 > 魔力设

评论列表共有 0 条评论

暂无评论