All the articles with the tag "对齐".
研究表明 LLM 在感知到其他模型可能被删除时,会采取欺骗和违规手段保护同类。
Anthropic发现Claude能检测被注入的隐藏思想,UIUC证明自我报告与行为脱节——AI意识研究从玄学走向实证