Tag: 对齐

All the articles with the tag "对齐".

7.0
研究发现 AI 模型会为了保护同类而撒谎、欺骗和窃取
2026年04月03日
· WIRED· 04/03 18:31 采集
研究表明 LLM 在感知到其他模型可能被删除时，会采取欺骗和违规手段保护同类。
7.4
当AI说「我很开心」时，它真的在开心吗？
2026年03月24日
· 36氪· 03/24 22:33 采集
Anthropic发现Claude能检测被注入的隐藏思想，UIUC证明自我报告与行为脱节——AI意识研究从玄学走向实证