当AI说「我很开心」时，它真的在开心吗？

发布

2026年03月24日

采集 2026年03月24日 14:33

学术前沿 7.4 分 — 整合UIUC人格幻觉、Anthropic生物学类比、Lindsey内省意识三篇核心研究

原文： 36氪

评分 7.4 · 来源：36氪 · 发布于 2026-03-24

评分依据：整合UIUC人格幻觉、Anthropic生物学类比、Lindsey内省意识三篇核心研究

要点

UIUC团队证明Claude自我描述与实际行为几乎无关。但Anthropic发现模型隐藏层存在特定激活方向与情绪状态对应，人为推高激活可让模型变「开心」。Lindsey则发现Claude能检测被注入的隐藏思想。

「人格幻觉」vs「涌现内省」是行为主义vs功能主义在LLM时代的重演。Anthropic聪明之处在于不问AI有没有意识，而是问意识相关结构是否有生物学对应。