评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:Agent 基准多语言适配超越翻译的工作流
Agent 基准主要 English-centric,多语言版本常用 MT 加有限 PE 构建。对于 agentic 任务这种最小工作流容易通过 query-answer misalignment 或文化 off-target context 破坏基准有效性。
评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:Agent 基准多语言适配超越翻译的工作流
Agent 基准主要 English-centric,多语言版本常用 MT 加有限 PE 构建。对于 agentic 任务这种最小工作流容易通过 query-answer misalignment 或文化 off-target context 破坏基准有效性。