Skip to content
星际流动

MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn RL

发布
采集
学术前沿 6.5 分 — 多轮RL训练agent进行长文档视觉问答,Similarity-based exploration奖励驱动信息寻找
原文: cs.CL updates on arXiv.org

评分 6.5 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-16

评分依据:多轮RL训练agent进行长文档视觉问答,Similarity-based exploration奖励驱动信息寻找