Skip to content
星际流动

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task

发布
采集
学术前沿 7.0 分 — 端到端软件开发基准测试改进,更细粒度的需求规范和评估协议,对代码模型评测有实际价值。
原文: arxiv.org

评分 7 · 来源: · 发布于 2026-04-10

评分依据:端到端软件开发基准测试改进,更细粒度的需求规范和评估协议,对代码模型评测有实际价值。