Tag: swe-bench

All the articles with the tag "swe-bench".

8.0
Beyond Isolated Tasks：评估编码 Agent 在连续软件演化中的表现
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
提出 SWE-STEPS 基准，将编码 Agent 评估从单次 PR 扩展到连续开发流程，揭示 Agent 在长期代码变更累积和技术债增长下面临的新挑战。
8.7
Anthropic：Agentic Coding基准中的基础设施噪声量化
2026年03月24日
· Anthropic Engineering· 03/24 22:33 采集
SWE-bench排行榜差异可能仅来自基础设施配置而非模型能力，直接挑战基准可信度
8.0
TDAD：测试驱动的智能体开发，减少 70% 代码回归
2026年03月19日
· arXiv· 03/19 10:36 采集
结合 AST 代码-测试图构建与加权影响分析，在 SWE-bench 上将解决率从 24% 提升至 32%
7.5
SWE-Bench 上 LLM 的 PR 合并率没有提高
2026年03月13日
· Entropic Thoughts
研究发现尽管 SWE-Bench 基准分数持续上升，LLM 生成的 PR 实际被合并进主分支的比例并未改善，暗示评测与现实脱节。
8.5
智谱 GLM-5：744B 参数开源 MoE 大模型，MIT 许可，SWE-bench 达 77.8%
2026年03月12日
· Zhipu AI / GLM-5
智谱 AI 发布 GLM-5，一个 744B 参数的混合专家（MoE）开源模型，基于华为昇腾芯片训练，MIT 许可证，SWE-bench Verified 达 77.8%，开源阵营中排名第三。
8.7
METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并
2026年03月10日
· METR / Hacker News
METR 研究发现，许多在 SWE-bench 上获得通过评分的 AI 生成 PR，其质量远达不到实际代码审查标准。

Tag: swe-bench

Beyond Isolated Tasks：评估编码 Agent 在连续软件演化中的表现

Anthropic：Agentic Coding基准中的基础设施噪声量化

TDAD：测试驱动的智能体开发，减少 70% 代码回归

SWE-Bench 上 LLM 的 PR 合并率没有提高

智谱 GLM-5：744B 参数开源 MoE 大模型，MIT 许可，SWE-bench 达 77.8%

METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并