The Specification Trap: Why Static Value Alignment Alone Cannot Produce Robust Alignment

发布

2026年04月10日

采集 2026年04月10日 04:31

学术前沿 8.5 分 — 重要对齐理论贡献：证明静态值对齐在能力扩展和分布偏移下的根本局限性，对AI安全领域有深远影响。

原文： arxiv.org

评分 8.5 · 来源： · 发布于 2026-04-10

评分依据：重要对齐理论贡献：证明静态值对齐在能力扩展和分布偏移下的根本局限性，对AI安全领域有深远影响。

Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning

Understanding Task Transfer in Vision-Language Models