评分 7.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:FPO 将澄清、验证、挑战、拒绝等显式控制动作纳入策略学习,是对齐方法的新视角
标准对齐方法优化表层偏好或任务效用。FPO 不同——它学习何时以及如何介入,将澄清、验证、挑战、重定向和拒绝视为显式控制动作,目的是塑造对话演进而非仅仅生成回答。这为语言模型策略学习提供了风险敏感和反思性对齐的新框架。
评分 7.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:FPO 将澄清、验证、挑战、拒绝等显式控制动作纳入策略学习,是对齐方法的新视角
标准对齐方法优化表层偏好或任务效用。FPO 不同——它学习何时以及如何介入,将澄清、验证、挑战、重定向和拒绝视为显式控制动作,目的是塑造对话演进而非仅仅生成回答。这为语言模型策略学习提供了风险敏感和反思性对齐的新框架。