评分 5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:重复推理下的 LLM 安全评估加速压力测试
传统基准通过广度导向评估 LLM 安全性,但真实部署暴露不同风险:重复推理时的操作失败。在高风险设置中响应一致性至关重要。本文提出加速 prompt stress testing 方法。
评分 5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:重复推理下的 LLM 安全评估加速压力测试
传统基准通过广度导向评估 LLM 安全性,但真实部署暴露不同风险:重复推理时的操作失败。在高风险设置中响应一致性至关重要。本文提出加速 prompt stress testing 方法。