评分 6 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:数据可视化 agent 基准,覆盖真实场景全生命周期,填补了 DV agent 评测空白
真实数据可视化需要原生环境落地、跨平台演进和主动意图对齐。现有基准受限于代码沙箱、单语言创建任务和完美意图假设。DV-World 引入 260 任务跨越三个领域,评估 DV agent 在真实专业生命周期中的表现。
评分 6 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:数据可视化 agent 基准,覆盖真实场景全生命周期,填补了 DV agent 评测空白
真实数据可视化需要原生环境落地、跨平台演进和主动意图对齐。现有基准受限于代码沙箱、单语言创建任务和完美意图假设。DV-World 引入 260 任务跨越三个领域,评估 DV agent 在真实专业生命周期中的表现。