AutoResearch 实战：一夜 151 次实验的自动化研究循环

作者在 DGX Spark (Blackwell GB10 GPU) 上运行 Karpathy 的 AutoResearch，一夜之间完成 151 次实验，最终将验证指标提升 22.5%。

核心发现

Agent 自主发现了硬件约束下的最优配置：在 128GB 显存中只使用 6.1GB，因为 GB10 的 213 TFLOPS 算力（相比 H100 的 990）决定了「更小模型 + 更多训练步数」才是最优解。三个独立团队在 GB10 上运行 AutoResearch 都得出了相同结论。

这个「尝试-测量-学习-重复」的循环不仅适用于 GPU 训练，已被应用到：

硬件决定最优架构。你无法复制别人的 GPU 配置并期待相同结果。每个平台都有自己的最优点，唯一找到它的方法就是运行循环。

完整代码和 151 次实验日志已开源在 GitHub。