评分 7.3 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:可扩展的Agentic RL训练框架解决深度研究Agent的两个核心瓶颈:合成数据缺乏真实搜索能力、真实搜索依赖导致训练不稳定和高成本。
强化学习(RL)已成为基于LLM的Agent的强大训练范式。然而,为深度研究扩展agentic RL仍受制于两个耦合挑战:手工合成的合成数据无法引发真正的真实世界搜索能力,而RL训练期间的真实世界搜索依赖引入不稳定性和高昂成本,限制了Agentic RL的可扩展性。
两大瓶颈:
- 合成数据困境:手工合成的合成数据无法激发真正的搜索能力
- 真实搜索依赖:训练期间依赖真实搜索 → 不稳定 + 高昂成本
LiteResearcher方案:
- 可扩展的agentic RL训练框架
- 解耦合成数据与真实搜索的依赖
- 使深度研究Agent的大规模训练成为可能
意义:
- 对Agent训练基础设施有重要贡献
- 为Research Agent(如DeepSearch、OpenAI o系列)的训练提供新路径