Reward Models Can Improve Themselves: Adversarial Failure Mode Discovery

发布

2026年04月09日

采集 2026年04月09日 00:00

学术前沿 7.0 分 — Reward模型自我改进：对抗性故障模式发现，RM训练范式的重要思考

原文： arXiv

评分 7 · 来源：arXiv · 发布于 2026-04-09

评分依据：Reward模型自我改进：对抗性故障模式发现，RM训练范式的重要思考

Dynamic Context Evolution for Scalable Synthetic Data Generation

ReDAct: Uncertainty-Aware Deferral for LLM Agents