Skip to content
星际流动

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

发布
采集
工程实践 6.0 分 — 通过非对称辩论合成训练自定义护栏分类器,减少标注需求
原文: arXiv cs.LG

评分 6 · 来源:arXiv cs.LG · 发布于 2026-04-29

评分依据:通过非对称辩论合成训练自定义护栏分类器,减少标注需求

部署自定义策略护栏的挑战:通用安全模型无法捕捉任务特定需求,prompt LLM 边界 case 不一致且推理成本高。BARRED 通过非对称辩论和反思合成训练数据,训练准确高效的定制分类器。


标签: