评分 4.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:消除训练中不安全状态访问的安全 RL 方法
大多数安全 RL 方法通过约束或减轻风险,但仍允许训练期间探索不安全状态。本文采取更严格的安全要求:训练期间完全消除不安全状态访问。
评分 4.5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:消除训练中不安全状态访问的安全 RL 方法
大多数安全 RL 方法通过约束或减轻风险,但仍允许训练期间探索不安全状态。本文采取更严格的安全要求:训练期间完全消除不安全状态访问。