PhotoDoodle是由新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合开发的一种艺术化图像编辑框架。该框架基于少量样本学习艺术家的风格,实现照片涂鸦功能。其采用两阶段训练策略:首先通过大规模数据预训练通用图像编辑模型OmniEditor,随后利用少量艺术家提供的前后图像对进行微调,以捕捉特定的编辑风格。为确保生成结果与背景的无缝融合和一致性,PhotoDoodle引入了位置编码重用机制和无噪声条件范式。此外,项目还提供了包含6种风格和300多个样本的高质量数据集,为相关研究提供基准。 PhotoDoodle具备多项核心功能,包括艺术风格学习与复现、装饰性元素生成、背景一致性保持、指令驱动编辑以及高效风格定制。其技术原理涵盖OmniEditor预训练、EditLoRA微调、位置编码克隆机制、无噪声条件范式及条件流匹配损失函数等。用户可通过GitHub仓库、HuggingFace模型库和arXiv论文获取更多相关信息。
发表评论 取消回复