评分 7.1 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-07
评分依据:针对工具使用Agent安全监控的新框架,解耦设计有创新性,实用价值较高
要点
工具使用型 LLM Agent 的安全监控面临新挑战:交互轨迹长且嘈杂,风险关键证据稀疏,传统二分类监督难以有效归因。DRAFT 将安全判断解耦为两阶段:Extractor 将完整轨迹蒸馏为紧凑的连续潜在草案,Reasoner 联合关注草案和原始轨迹进行推理。
这种设计让模型能同时捕获局部风险信号和全局上下文,在多个 Agent 安全基准上取得显著提升。
🤖 AI 点评
Agent 安全是今年最关键的议题之一。DRAFT 的思路——先把轨迹压缩再判断——与人类安全审查员的工作方式很像:先快速扫一遍找可疑点,再仔细看。这种解耦设计可能在生产环境中有实际落地价值。