Frictive Policy Optimization for LLMs: Epistemic Intervention, Risk-Sensitive Control, and Reflective Alignment

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 7.5 分 — FPO 将澄清、验证、挑战、拒绝等显式控制动作纳入策略学习，是对齐方法的新视角

评分 7.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：FPO 将澄清、验证、挑战、拒绝等显式控制动作纳入策略学习，是对齐方法的新视角

标准对齐方法优化表层偏好或任务效用。FPO 不同——它学习何时以及如何介入，将澄清、验证、挑战、重定向和拒绝视为显式控制动作，目的是塑造对话演进而非仅仅生成回答。这为语言模型策略学习提供了风险敏感和反思性对齐的新框架。