Evaluation without Generation: Non-Generative Assessment of Harmful Model Specialization with Applications to CSAM

发布

2026年04月29日

采集 2026年04月29日 06:31

政策伦理 5.5 分 — 非生成式评估有害模型专业化，解决 CSAM 等领域无法生成评估的治理难题

评分 5.5 · 来源：arXiv cs.LG · 发布于 2026-04-29

评分依据：非生成式评估有害模型专业化，解决 CSAM 等领域无法生成评估的治理难题

审核开放权重模型的 fine-tune 是否有害专业化成为新治理挑战。标准工具包——生成式评估——在平台级审核不扩展，在 CSAM 等领域法律上受限。本文提出 Evaluation without Generation 问题及其方法。

标签：