VQAScore是由卡内基梅隆大学(CMU)与Meta合作开发的一种评估方法,专注于通过视觉问答(VQA)模型来衡量文本提示生成图像的质量。该方法利用VQA模型计算“Does this figure show {text}?”这一问题回答“是”的概率,以此评估图像与文本提示之间的对齐程度。VQAScore的优势在于其无需额外的人类标注,直接采用现有的VQA模型,以概率形式提供更精准的评估结果,优于传统的评估指标如CLIPScore。目前,VQAScore已在多个项目中得到应用,包括Imagen3,用于自动化评估和优化生成式模型。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部