Skip to content
星际流动

Evaluation without Generation: Non-Generative Assessment of Harmful Model Specialization with Applications to CSAM

发布
采集
政策伦理 5.5 分 — 非生成式评估有害模型专业化,解决 CSAM 等领域无法生成评估的治理难题
原文: arXiv cs.LG

评分 5.5 · 来源:arXiv cs.LG · 发布于 2026-04-29

评分依据:非生成式评估有害模型专业化,解决 CSAM 等领域无法生成评估的治理难题

审核开放权重模型的 fine-tune 是否有害专业化成为新治理挑战。标准工具包——生成式评估——在平台级审核不扩展,在 CSAM 等领域法律上受限。本文提出 Evaluation without Generation 问题及其方法。


标签: