FACTS Grounding是由谷歌DeepMind开发的一种用于评估大型语言模型(LLMs)事实准确性能力的基准测试工具。该工具通过分析模型在生成文本时是否依赖于大量上下文信息,并确保输出内容没有虚构或不实信息,来衡量模型的表现。测试集合包含超过1700个样本,涉及金融、科技、零售、医疗和法律等多个领域,每个样本要求模型基于长达32,000个token的文档生成响应。FACTS Grounding采用两阶段评估流程:首先确认模型响应是否符合用户需求,然后检查其事实准确性。此外,该工具还结合了多个评审模型的结果以降低偏差,从而提升评估结果的可靠性和一致性。
发表评论 取消回复