评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:首个大规模多语言多模态评判基准MM-JudgeBench,揭示LVLM评估器几乎仅在英文上验证的严重问题。重要发现
问题背景
自动评估器(reward model)在LVLM的对齐和评估中扮演核心角色,但这些评估器几乎仅在英文-centric benchmark上评估,跨语言泛化能力完全未知。
MM-JudgeBench 贡献
- 首个大规模多语言+多模态评判基准
- 覆盖多种语言家族和模态组合
- 系统性揭示当前LVLM judge的语言偏差
核心发现
LVLM作为评判者的能力在不同语言间存在系统性差距,英文表现不能代表其他语言。这对多语言LVLM alignment有重要警示意义。