LLMs learn what programmers create, not how programmers work

评分 6 · 来源：Hacker News · 发布于 2026-03-23

评分依据：揭示了 LLM 学习编程行为的一个重要盲区——模型学到的是文档中的命令形式，而非程序员的实际操作习惯

核心发现

一位开发者在 Hacker News 上分享了关于 LLM 与编程交互的实验观察：

LLM 学到的是命令在文档/代码库中的样子，而不是人类在键盘上实际输入的内容。

这个发现用 Kimi K2.5 模型验证，指出了一个被广泛忽视的问题。

训练数据的偏差：LLM 的编程知识主要来自 GitHub 仓库、文档、博客——这些都是「精修后」的产物。真实的编程过程充满了试错、撤销、重构，但这些信息很少出现在训练数据中。
工具调用设计的启示：如果 LLM 从来没见过程序员的真实操作流程，那么让 LLM 直接模拟「程序员怎么工作」可能不如让它操作「文档中描述的命令」效果好。这解释了为什么 CLI 格式的工具调用对 LLM 来说更直觉——不是因为 CLI 对人类更直觉，而是因为 CLI 命令在训练数据中更常见。
Agent 设计的参考：这个发现对设计 AI 编程 Agent 的工具接口有指导意义——与其让 Agent 模拟人类 IDE 操作（鼠标点击、菜单选择），不如让 Agent 通过文本协议（CLI、API）与开发环境交互。