Tag: LLM安全

All the articles with the tag "LLM安全".

7.0
ClawsBench：模拟工作空间中的 LLM 生产力 Agent 能力与安全评估
2026年04月08日
· cs.AI updates on arXiv.org· 04/08 14:34 采集
构建模拟工作空间环境全面评估 LLM 生产力 Agent 的能力和安全性，覆盖文件操作、邮件处理等多场景
7.7
理解安全对齐移除：越狱微调和权重正交化如何瓦解 LLM 安全护栏
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
首次系统分析越狱微调和权重正交化两种安全移除方法的影响范围，发现安全退化不仅限于拒绝有害请求，还会影响模型整体的推理质量。