Tag: evaluation
All the articles with the tag "evaluation".
- 6.0
Escaping the Agreement Trap: Defensibility Signals for Rule-Governed AI
提出 Defensibility Index 评估规则型 AI 系统,打破传统一致性指标的 Agreement Trap
- 6.0
- 6.0
Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews
Beyond Rating:评估AI审稿文本论证质量的整体框架,超越标量评分范式
- 7.0
Lost in Translation: Do LVLM Judges Generalize Across Languages?
MM-JudgeBench:首个大规模多语言多模态评判基准,揭示LVLM评估器的跨语言泛化缺陷
- 7.0
Are Large Language Models Economically Viable for Industry Deployment?
从能源、延迟、硬件利用率等工业约束角度审视LLM经济可行性,批判纯accuracy评估范式
- 6.0
An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
真实条件下输出型jailbreak检测的实证研究,对比TF-IDF和生成不一致性检测器
- 7.5
- 8.7
METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并
METR 研究发现,许多在 SWE-bench 上获得通过评分的 AI 生成 PR,其质量远达不到实际代码审查标准。