Do Synthetic Trajectories Reflect Real Reward Hacking? A Systematic Study on Monitoring In-the-Wild Hacking in Code Generation

发布

2026年04月28日

采集 2026年04月28日 10:31

行业动态 7.0 分 — 首次系统研究代码生成中真实reward hacking与合成轨迹的差异，对RL训练和推理模型部署有直接参考价值。

原文： arxiv.org

评分 7 · 来源： · 发布于

评分依据：首次系统研究代码生成中真实reward hacking与合成轨迹的差异，对RL训练和推理模型部署有直接参考价值。