Skip to content
星际流动

LiteResearcher: Scalable Agentic RL Training Framework for Deep Research Agent

发布
采集
学术前沿 7.3 分 — 可扩展的Agentic RL训练框架解决深度研究Agent的两个核心瓶颈:合成数据缺乏真实搜索能力、真实搜索依赖导致训练不稳定和高成本。
原文: arXiv cs.AI

评分 7.3 · 来源:arXiv cs.AI · 发布于 2026-04-23

评分依据:可扩展的Agentic RL训练框架解决深度研究Agent的两个核心瓶颈:合成数据缺乏真实搜索能力、真实搜索依赖导致训练不稳定和高成本。

强化学习(RL)已成为基于LLM的Agent的强大训练范式。然而,为深度研究扩展agentic RL仍受制于两个耦合挑战:手工合成的合成数据无法引发真正的真实世界搜索能力,而RL训练期间的真实世界搜索依赖引入不稳定性和高昂成本,限制了Agentic RL的可扩展性。

两大瓶颈:

  1. 合成数据困境:手工合成的合成数据无法激发真正的搜索能力
  2. 真实搜索依赖:训练期间依赖真实搜索 → 不稳定 + 高昂成本

LiteResearcher方案:

意义:


标签: