评分 8 · 来源:arXiv · 发布于 2026-04-09 评分依据:Agentic RL中的推理崩溃——Agent RL训练的核心警告:RL优化可能损害推理能力
评分 8 · 来源:arXiv · 发布于 2026-04-09
评分依据:Agentic RL中的推理崩溃——Agent RL训练的核心警告:RL优化可能损害推理能力