Skip to content
星际流动

Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

发布
采集
学术前沿 6.5 分 — REST/REST+ benchmark系统评估MLLM跨模态不一致性——同一内容在不同模态下给出不同回答的问题,揭示了多模态模型的根本性缺陷。
原文: arXiv cs.AI

评分 6.5 · 来源:arXiv cs.AI · 发布于 2026-04-23

评分依据:REST/REST+ benchmark系统评估MLLM跨模态不一致性——同一内容在不同模态下给出不同回答的问题,揭示了多模态模型的根本性缺陷。

我们引入两个新benchmark——REST和REST+(渲染等价压力测试),用于系统评估多模态大语言模型(MLLM)中的跨模态不一致性。MLLM被训练在同一嵌入空间中表示视觉和语言,但它们不能在两种模态中执行相同的任务。

核心问题:跨模态不一致

意义:


标签: