评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:从源头(预训练数据)去毒而非后训练或推理时处理,根本性思路转变
现有方法的局限
现有去毒方法主要聚焦于:
- 后训练阶段
- 推理时解码控制
这些方法无法完全抑制模型的固有毒性。
本文思路
从源头治理:直接净化预训练数据集,从根本上减少模型训练期间学到的毒性。
方法特点
- 直接在预训练数据层面操作
- 减少而非消除后续去毒的需求
- 与现有后训练方法互补
意义
为LLM安全提供了新的治理层次——数据层面的前置防御。