Skip to content
星际流动

Detoxification for LLM: From Dataset Itself

发布
采集
政策伦理 6.0 分 — 从源头(预训练数据)去毒而非后训练或推理时处理,根本性思路转变
原文: cs.CL updates on arXiv.org

评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据:从源头(预训练数据)去毒而非后训练或推理时处理,根本性思路转变

现有方法的局限

现有去毒方法主要聚焦于:

这些方法无法完全抑制模型的固有毒性。

本文思路

从源头治理:直接净化预训练数据集,从根本上减少模型训练期间学到的毒性。

方法特点

意义

为LLM安全提供了新的治理层次——数据层面的前置防御。


标签: