Poetry2Image是由哈尔滨工业大学开发的一个专注于中文古诗词图像生成的迭代校正框架。该框架通过自动化反馈和校正机制,提升了诗歌与图像之间的一致性,有效解决了文本到图像生成模型在处理中文古典诗歌时常遇到的关键元素丢失或语义混淆的问题。Poetry2Image能够显著提升图像生成的元素完整性和语义一致性,当与五种主流图像生成模型结合使用时,其平均元素完整性可达70.63%,语义一致性可达80.09%。 Poetry2Image的核心功能包括自动化反馈和校正、减少人工干预、提高生成效率与质量、搜索和翻译古诗、生成初始图像、提取关键元素、图像修正以及迭代优化等。它利用外部诗歌数据集构建了自动化反馈和校正循环,降低了人工干预的需求,提高了生成图像的质量和准确性。此外,系统通过大型语言模型识别并提取诗歌中的关键元素,并在生成图像后检查其完整性,必要时提出修改建议。这一迭代优化过程确保了最终图像能够精准传达诗歌的意境。 Poetry2Image的技术原理基于开放词汇检测器(OVD)识别图像元素信息,并通过大型语言模型提供修改建议,这些建议以图像框选的形式呈现,引导图像编辑模型对初始图像进行调整。该框架无需对初始图像生成模型进行特定限制,迭代校正操作也避免了额外的训练成本,同时自动化生成和反馈流程显著减少了人工注释的需求。 Poetry2Image的开源代码托管于GitHub仓库(https://github.com/prajwalppv/Poetry2Image),其相关技术论文可在arXiv上查阅(https://arxiv.org/pdf/2407.06196v1)。
发表评论 取消回复