Skip to content
星际流动

Beyond Linear Probes: Dynamic Safety Monitoring for Language Models

发布
采集
学术前沿 7.0 分 — 提出灵活成本的安全监控——简单输入低成本、困难输入自动升成本。动态安全监控的新思路
原文: cs.LG updates on arXiv.org

评分 7 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据:提出灵活成本的安全监控——简单输入低成本、困难输入自动升成本。动态安全监控的新思路

传统安全监控的困境

监控LLM激活来检测有害请求是有效的安全手段,但传统方案对所有查询使用相同计算量:

Dynamic Safety Monitoring

实用价值

为生产环境LLM部署提供了成本效益最优的安全监控方案,特别适合高吞吐API服务。


标签: