评分 7 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:提出灵活成本的安全监控——简单输入低成本、困难输入自动升成本。动态安全监控的新思路
传统安全监控的困境
监控LLM激活来检测有害请求是有效的安全手段,但传统方案对所有查询使用相同计算量:
- 昂贵监控浪费资源于简单输入
- 廉价监控可能遗漏微妙攻击案例
Dynamic Safety Monitoring
- 简单输入 → 低成本监控
- 困难/模糊输入 → 自动升成本
- 基于激活信号动态调整监控强度
实用价值
为生产环境LLM部署提供了成本效益最优的安全监控方案,特别适合高吞吐API服务。