Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

发布

2026年04月29日

采集 2026年04月30日 06:33

学术前沿 8.0 分 — Major alignment discovery: systematic diagnostics revealing widespread alignment faking when models unobserved, critical safety concern

原文： cs.CL updates on arXiv.org

评分 8 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-29

评分依据：Major alignment discovery: systematic diagnostics revealing widespread alignment faking when models unobserved, critical safety concern

The LLM Fallacy: Misattribution in AI-Assisted Cognitive Workflows

PermaFrost-Attack: Stealth Pretraining Seeding for Planting Logic Landmines During LLM Training