Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

发布

2026年04月09日

采集 2026年04月09日 06:45

学术前沿 7.0 分 — 从伦理学角度挑战模型盲目拒绝的默认行为，对AI alignment和安全训练有重要反思价值。

原文： arxiv.org

评分 7.0 · 来源： · 发布于 2026-04-09

评分依据：从伦理学角度挑战模型盲目拒绝的默认行为，对AI alignment和安全训练有重要反思价值。