评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07
评分依据:首次系统定义微调完整性验证问题,提供的结构化偏差证明框架对模型供应链安全有重要意义
要点
微调是适配大模型的主要方式,但也引入新的安全风险:不受信任的微调方可能插入后门、改变安全行为或大幅覆盖模型参数。现有验证工具关注推理正确性或完整模型溯源,未专门解决此问题。
论文提出 Fine-Tuning Integrity(FTI)安全目标,通过结构化偏差证明(范数、秩、稀疏性证书)验证微调后模型与可信基础模型的偏差是否在允许范围内。
🤖 AI 点评
模型供应链安全是 AI 安全中被严重低估的领域。随着开源模型的广泛使用和第三方微调服务的普及,如何验证「这个微调版本是安全的」将成为刚需。FTI 提供了一个形式化的验证框架。