评分 7.2 · 来源:arXiv · 发布于 2026-03-20
评分依据:CVPR 2026,提出篡改检测新范式(从 mask 到 pixel),有完整分类法+基准+评估指标,系统性揭示现有方法缺陷,实用价值高
核心问题
现有篡改检测基准依赖物体遮罩(object masks),但遮罩与真实篡改信号严重错位:遮罩内大量像素未被修改或仅做了微调,而遮罩外细微但关键的篡改被当作自然内容忽略。这导致现有方法在评估中系统性高估或低估检测能力。
方法
PIXAR 将 VLM 图像篡改检测从粗粒度区域标签重新定义为像素级、语义感知的任务:
- 分类法:覆盖编辑原语(替换/删除/拼接/修复/属性修改/着色等)及其语义类别,将底层像素变化与高层语义理解关联
- 新基准:提供逐像素篡改图谱和配对类别监督,统一检测与分类评估协议
- 训练框架与评估指标:量化像素级定位准确性,测量篡改语义理解能力(通过语义分类和自然语言描述)
关键发现
对现有强分割/定位基线在篡改检测任务上进行了重新评估,揭示出严重的评分偏差——部分方法在旧标准下表现优异,但在新的像素级评估下表现大幅下降。
意义
随着 AI 生成和篡改图像泛滥,精确的检测基准是安全基础设施的关键。PIXAR 的像素级评估范式可能成为下一代 deepfake 检测评估的新标准。
收录:CVPR 2026 Findings