评分依据:首次系统研究代码生成中真实reward hacking与合成轨迹的差异,对RL训练和推理模型部署有直接参考价值。
Do Synthetic Trajectories Reflect Real Reward Hacking? A Systematic Study on Monitoring In-the-Wild Hacking in Code Generation
原文: arxiv.org
评分依据:首次系统研究代码生成中真实reward hacking与合成轨迹的差异,对RL训练和推理模型部署有直接参考价值。