LiteResearcher: Scalable Agentic RL Training Framework for Deep Research Agent

发布

2026年04月23日

采集 2026年04月23日 06:32

学术前沿 7.3 分 — 可扩展的Agentic RL训练框架解决深度研究Agent的两个核心瓶颈：合成数据缺乏真实搜索能力、真实搜索依赖导致训练不稳定和高成本。

评分 7.3 · 来源：arXiv cs.AI · 发布于 2026-04-23

评分依据：可扩展的Agentic RL训练框架解决深度研究Agent的两个核心瓶颈：合成数据缺乏真实搜索能力、真实搜索依赖导致训练不稳定和高成本。

强化学习(RL)已成为基于LLM的Agent的强大训练范式。然而，为深度研究扩展agentic RL仍受制于两个耦合挑战：手工合成的合成数据无法引发真正的真实世界搜索能力，而RL训练期间的真实世界搜索依赖引入不稳定性和高昂成本，限制了Agentic RL的可扩展性。

两大瓶颈：

LiteResearcher方案：

意义：