BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

发布

2026年04月29日

采集 2026年04月29日 06:31

工程实践 6.0 分 — 通过非对称辩论合成训练自定义护栏分类器，减少标注需求

原文： arXiv cs.LG

评分 6 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：通过非对称辩论合成训练自定义护栏分类器，减少标注需求

部署自定义策略护栏的挑战：通用安全模型无法捕捉任务特定需求，prompt LLM 边界 case 不一致且推理成本高。BARRED 通过非对称辩论和反思合成训练数据，训练准确高效的定制分类器。

标签：

Learning Illumination Control in Diffusion Models

MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale Deployment