Tag: 模型安全
All the articles with the tag "模型安全".
- 7.0
Where to Steer:输入依赖的层级选择让 LLM 对齐效果更好
研究发现不同输入的最优干预层不同,提出输入依赖的层级选择策略用于 steering vector,显著提升 LLM 对齐效果
- 7.0
Fine-Tuning Integrity:现代神经网络的微调完整性验证
提出微调完整性(FTI)安全目标,通过范数、秩和稀疏性证书验证微调模型与基础模型的偏差在允许范围内,防止恶意后门注入