PIXAR: From Masks to Pixels — VLM 图像篡改检测新分类法与基准

评分 7.2 · 来源：arXiv · 发布于 2026-03-20

评分依据：CVPR 2026，提出篡改检测新范式（从 mask 到 pixel），有完整分类法+基准+评估指标，系统性揭示现有方法缺陷，实用价值高

核心问题

现有篡改检测基准依赖物体遮罩（object masks），但遮罩与真实篡改信号严重错位：遮罩内大量像素未被修改或仅做了微调，而遮罩外细微但关键的篡改被当作自然内容忽略。这导致现有方法在评估中系统性高估或低估检测能力。

PIXAR 将 VLM 图像篡改检测从粗粒度区域标签重新定义为像素级、语义感知的任务：

对现有强分割/定位基线在篡改检测任务上进行了重新评估，揭示出严重的评分偏差——部分方法在旧标准下表现优异，但在新的像素级评估下表现大幅下降。

随着 AI 生成和篡改图像泛滥，精确的检测基准是安全基础设施的关键。PIXAR 的像素级评估范式可能成为下一代 deepfake 检测评估的新标准。

收录：CVPR 2026 Findings