Tag: 模型安全

All the articles with the tag "模型安全".

7.0
Where to Steer：输入依赖的层级选择让 LLM 对齐效果更好
2026年04月07日
· cs.LG updates on arXiv.org· 04/08 12:31 采集
研究发现不同输入的最优干预层不同，提出输入依赖的层级选择策略用于 steering vector，显著提升 LLM 对齐效果
7.0
Fine-Tuning Integrity：现代神经网络的微调完整性验证
2026年04月07日
· cs.LG updates on arXiv.org· 04/08 12:31 采集
提出微调完整性（FTI）安全目标，通过范数、秩和稀疏性证书验证微调模型与基础模型的偏差在允许范围内，防止恶意后门注入

Where to Steer：输入依赖的层级选择让 LLM 对齐效果更好