DRAFT：面向 Agent 安全的解耦式潜在推理框架

发布

2026年04月07日

采集 2026年04月08日 04:31

学术前沿 7.1 分 — 针对工具使用Agent安全监控的新框架，解耦设计有创新性，实用价值较高

评分 7.1 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-07

评分依据：针对工具使用Agent安全监控的新框架，解耦设计有创新性，实用价值较高

要点

工具使用型 LLM Agent 的安全监控面临新挑战：交互轨迹长且嘈杂，风险关键证据稀疏，传统二分类监督难以有效归因。DRAFT 将安全判断解耦为两阶段：Extractor 将完整轨迹蒸馏为紧凑的连续潜在草案，Reasoner 联合关注草案和原始轨迹进行推理。

这种设计让模型能同时捕获局部风险信号和全局上下文，在多个 Agent 安全基准上取得显著提升。

Agent 安全是今年最关键的议题之一。DRAFT 的思路——先把轨迹压缩再判断——与人类安全审查员的工作方式很像：先快速扫一遍找可疑点，再仔细看。这种解耦设计可能在生产环境中有实际落地价值。