Tag: LLM安全
All the articles with the tag "LLM安全".
- 7.0
ClawsBench:模拟工作空间中的 LLM 生产力 Agent 能力与安全评估
构建模拟工作空间环境全面评估 LLM 生产力 Agent 的能力和安全性,覆盖文件操作、邮件处理等多场景
- 7.7
理解安全对齐移除:越狱微调和权重正交化如何瓦解 LLM 安全护栏
首次系统分析越狱微调和权重正交化两种安全移除方法的影响范围,发现安全退化不仅限于拒绝有害请求,还会影响模型整体的推理质量。
All the articles with the tag "LLM安全".
构建模拟工作空间环境全面评估 LLM 生产力 Agent 的能力和安全性,覆盖文件操作、邮件处理等多场景
首次系统分析越狱微调和权重正交化两种安全移除方法的影响范围,发现安全退化不仅限于拒绝有害请求,还会影响模型整体的推理质量。