E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task

发布

2026年04月10日

采集 2026年04月10日 04:31

学术前沿 7.0 分 — 端到端软件开发基准测试改进，更细粒度的需求规范和评估协议，对代码模型评测有实际价值。

原文： arxiv.org

评分 7 · 来源： · 发布于 2026-04-10

评分依据：端到端软件开发基准测试改进，更细粒度的需求规范和评估协议，对代码模型评测有实际价值。

Prompt reinforcing for long-term planning of large language models

Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test