评分 6.5 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-16 评分依据:多轮RL训练agent进行长文档视觉问答,Similarity-based exploration奖励驱动信息寻找