Skip to content
星际流动

PIXAR: From Masks to Pixels — VLM 图像篡改检测新分类法与基准

发布
采集
学术前沿 7.2 分 — CVPR 2026,提出篡改检测新范式(从 mask 到 pixel),有完整分类法+基准+评估指标,系统性揭示现有方法缺陷,实用价值高
原文: arXiv

评分 7.2 · 来源:arXiv · 发布于 2026-03-20

评分依据:CVPR 2026,提出篡改检测新范式(从 mask 到 pixel),有完整分类法+基准+评估指标,系统性揭示现有方法缺陷,实用价值高

核心问题

现有篡改检测基准依赖物体遮罩(object masks),但遮罩与真实篡改信号严重错位:遮罩内大量像素未被修改或仅做了微调,而遮罩外细微但关键的篡改被当作自然内容忽略。这导致现有方法在评估中系统性高估或低估检测能力。

方法

PIXAR 将 VLM 图像篡改检测从粗粒度区域标签重新定义为像素级、语义感知的任务:

关键发现

对现有强分割/定位基线在篡改检测任务上进行了重新评估,揭示出严重的评分偏差——部分方法在旧标准下表现优异,但在新的像素级评估下表现大幅下降。

意义

随着 AI 生成和篡改图像泛滥,精确的检测基准是安全基础设施的关键。PIXAR 的像素级评估范式可能成为下一代 deepfake 检测评估的新标准。

收录:CVPR 2026 Findings


标签: