评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:REST/REST+ benchmark系统评估MLLM跨模态不一致性——同一内容在不同模态下给出不同回答的问题,揭示了多模态模型的根本性缺陷。
我们引入两个新benchmark——REST和REST+(渲染等价压力测试),用于系统评估多模态大语言模型(MLLM)中的跨模态不一致性。MLLM被训练在同一嵌入空间中表示视觉和语言,但它们不能在两种模态中执行相同的任务。
核心问题:跨模态不一致
- 同一内容以文本形式和图像形式呈现时,MLLM给出不同答案
- 这揭示了多模态”统一表示”的根本性缺陷
- REST/REST+通过渲染等价压力测试系统量化这一问题
意义:
- 对当前MLLM的训练范式提出质疑
- 为多模态模型评估提供新维度
- 对多模态Agent可靠性有直接影响