Detoxification for LLM: From Dataset Itself

发布

2026年04月22日

采集 2026年04月22日 06:31

政策伦理 6.0 分 — 从源头（预训练数据）去毒而非后训练或推理时处理，根本性思路转变

评分 6 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：从源头（预训练数据）去毒而非后训练或推理时处理，根本性思路转变

现有方法的局限

现有去毒方法主要聚焦于：

这些方法无法完全抑制模型的固有毒性。

从源头治理：直接净化预训练数据集，从根本上减少模型训练期间学到的毒性。

为LLM安全提供了新的治理层次——数据层面的前置防御。