Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

发布

2026年04月23日

采集 2026年04月23日 06:32

学术前沿 6.5 分 — REST/REST+ benchmark系统评估MLLM跨模态不一致性——同一内容在不同模态下给出不同回答的问题，揭示了多模态模型的根本性缺陷。

评分 6.5 · 来源：arXiv cs.AI · 发布于 2026-04-23

评分依据：REST/REST+ benchmark系统评估MLLM跨模态不一致性——同一内容在不同模态下给出不同回答的问题，揭示了多模态模型的根本性缺陷。

我们引入两个新benchmark——REST和REST+（渲染等价压力测试），用于系统评估多模态大语言模型(MLLM)中的跨模态不一致性。MLLM被训练在同一嵌入空间中表示视觉和语言，但它们不能在两种模态中执行相同的任务。

核心问题：跨模态不一致

意义：