OpenSeeker：首个完全开源的前沿搜索 Agent，训练数据+模型权重全公开

评分 7.7 · 来源：arXiv · 发布于 2026-03-16

评分依据：首个完全开源的前沿搜索 Agent，用 11.7K 样本+简单 SFT 达到 SOTA，数据和模型全部公开

要点

OpenSeeker 是首个完全开源（模型 + 训练数据）的前沿搜索 Agent，用两项核心技术创新实现了与工业级方案竞争的性能：

技术创新：

实验结果：

开源内容： 完整训练数据集 + 模型权重

这篇论文最令人印象深刻的不是 SOTA 结果本身，而是 用 11.7K 样本 + 简单 SFT 就超越了使用持续预训练+SFT+RL 完整流程的工业方案。这说明数据质量和合成方法的重要性远超训练规模。

“事实锚定”的数据合成方法很聪明 — 不是随机生成问答对，而是从 Web 图谱结构出发，构造有真实依据的多跳推理任务。这避免了合成数据常见的”幻觉训练”问题。

完全开源训练数据在搜索 Agent 领域是首次，意义重大。之前这个领域被工业巨头垄断的核心原因就是缺乏透明的高质量训练数据。OpenSeeker 打破了这个壁垒。