评分 7.7 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:首个大规模真实编码Agent使用数据集:6000个会话、63000条用户提示、355000次工具调用。填补了编码Agent实证研究的空白。
AI编码Agent正在被大规模采用,但我们缺乏关于人们如何实际使用它们以及其输出在实践中有多大用途的实证证据。SWE-chat是首个从开源开发者收集的大规模真实编码Agent会话数据集。
数据集规模:
- 6,000个真实用户会话
- 63,000条用户提示
- 355,000次Agent工具调用
- 来自野生环境(非实验室设定)
独特价值:
- 填补编码Agent实证研究的空白
- 揭示真实使用模式vs预期使用场景的差异
- 为Agent UX设计提供数据驱动洞察