Tag: swe-bench
All the articles with the tag "swe-bench".
- 8.0
Beyond Isolated Tasks:评估编码 Agent 在连续软件演化中的表现
提出 SWE-STEPS 基准,将编码 Agent 评估从单次 PR 扩展到连续开发流程,揭示 Agent 在长期代码变更累积和技术债增长下面临的新挑战。
- 8.7
Anthropic:Agentic Coding基准中的基础设施噪声量化
SWE-bench排行榜差异可能仅来自基础设施配置而非模型能力,直接挑战基准可信度
- 8.0
TDAD:测试驱动的智能体开发,减少 70% 代码回归
结合 AST 代码-测试图构建与加权影响分析,在 SWE-bench 上将解决率从 24% 提升至 32%
- 7.5
SWE-Bench 上 LLM 的 PR 合并率没有提高
研究发现尽管 SWE-Bench 基准分数持续上升,LLM 生成的 PR 实际被合并进主分支的比例并未改善,暗示评测与现实脱节。
- 8.5
智谱 GLM-5:744B 参数开源 MoE 大模型,MIT 许可,SWE-bench 达 77.8%
智谱 AI 发布 GLM-5,一个 744B 参数的混合专家(MoE)开源模型,基于华为昇腾芯片训练,MIT 许可证,SWE-bench Verified 达 77.8%,开源阵营中排名第三。
- 8.7
METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并
METR 研究发现,许多在 SWE-bench 上获得通过评分的 AI 生成 PR,其质量远达不到实际代码审查标准。