模型转向

首页

模型转向

AxBench是斯坦福大学推出的语言模型可解释性评估框架，支持概念检测与模型转向任务。它通过合成数据生成训练集，评估模型对特定概念的识别能力和干预后的表现。提供统一的评估平台，支持多种控制方法，如提示、微调和稀疏自编码器，并采用多维评分机制，适用于AI安全、伦理及内容生成等场景。

AI项目与工具 2025年06月12日 98 点赞 0 评论 609 浏览