评分 4 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:检测 LLM sandbagging 的预注册实验
检测 sandbagging 是 AI 安全开放问题。本文测试症状有效性测试逻辑是否能通过 below-chance performance 识别 sandbagging。7-9B 参数规模的预注册 pilot 实验。
评分 4 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:检测 LLM sandbagging 的预注册实验
检测 sandbagging 是 AI 安全开放问题。本文测试症状有效性测试逻辑是否能通过 below-chance performance 识别 sandbagging。7-9B 参数规模的预注册 pilot 实验。