AxBench AxBench是斯坦福大学推出的语言模型可解释性评估框架,支持概念检测与模型转向任务。它通过合成数据生成训练集,评估模型对特定概念的识别能力和干预后的表现。提供统一的评估平台,支持多种控制方法,如提示、微调和稀疏自编码器,并采用多维评分机制,适用于AI安全、伦理及内容生成等场景。 AI项目与工具 2025年06月12日 98 点赞 0 评论 161 浏览