SimpleQA是由OpenAI推出的一个基准测试工具,专门用于评估大型语言模型在回答简短、事实性问题方面的表现。该数据集包含4326个问题,每个问题都设计为具有唯一正确答案,并通过两位独立标注员验证,以确保答案的准确性和时效性。尽管最先进的模型如o1-preview和Claude Sonnet 3.5在此测试中的准确率低于50%,但SimpleQA仍然能够有效衡量模型的事实性回答能力和自我认知水平,即模型对其自身回答准确性的评估能力。此外,SimpleQA的数据集涵盖了多个主题领域,包括历史、科学和艺术等,旨在推动更可靠和可信的语言模型发展。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部