Skip to content
星际流动

Lost in Translation: Do LVLM Judges Generalize Across Languages?

发布
采集
学术前沿 7.0 分 — 首个大规模多语言多模态评判基准MM-JudgeBench,揭示LVLM评估器几乎仅在英文上验证的严重问题。重要发现
原文: cs.CL updates on arXiv.org

评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据:首个大规模多语言多模态评判基准MM-JudgeBench,揭示LVLM评估器几乎仅在英文上验证的严重问题。重要发现

问题背景

自动评估器(reward model)在LVLM的对齐和评估中扮演核心角色,但这些评估器几乎仅在英文-centric benchmark上评估,跨语言泛化能力完全未知。

MM-JudgeBench 贡献

核心发现

LVLM作为评判者的能力在不同语言间存在系统性差距,英文表现不能代表其他语言。这对多语言LVLM alignment有重要警示意义。


标签: