Lost in Translation: Do LVLM Judges Generalize Across Languages?

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 7.0 分 — 首个大规模多语言多模态评判基准MM-JudgeBench，揭示LVLM评估器几乎仅在英文上验证的严重问题。重要发现

评分 7 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：首个大规模多语言多模态评判基准MM-JudgeBench，揭示LVLM评估器几乎仅在英文上验证的严重问题。重要发现

问题背景

自动评估器（reward model）在LVLM的对齐和评估中扮演核心角色，但这些评估器几乎仅在英文-centric benchmark上评估，跨语言泛化能力完全未知。

LVLM作为评判者的能力在不同语言间存在系统性差距，英文表现不能代表其他语言。这对多语言LVLM alignment有重要警示意义。