GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark beyond Translation

发布

2026年04月29日

采集 2026年04月29日 06:31

学术前沿 4.5 分 — Agent 基准多语言适配超越翻译的工作流

原文： arXiv cs.CL

评分 4.5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：Agent 基准多语言适配超越翻译的工作流

Agent 基准主要 English-centric，多语言版本常用 MT 加有限 PE 构建。对于 agentic 任务这种最小工作流容易通过 query-answer misalignment 或文化 off-target context 破坏基准有效性。

标签：

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in LLMs

ADE: Adaptive Dictionary Embeddings -- Scaling Multi-Anchor Representations to LLMs