ROM：首个流式推理「过度思考」实时检测与缓解方法，93.5% 准确率

评分 7.7 · 来源：arXiv · 发布于 2026-03-24

评分依据：首个将过度思考缓解建模为流式问题的方法，检测准确率高，开源，直接解决 Agent 部署痛点

要点

ROM（Real-time Overthinking Mitigation）是首个将 LLM 过度思考（overthinking）问题形式化为流式预测与控制的研究。过度思考是当前推理模型的核心痛点——模型为了追求高准确率，经常在简单问题上生成大量冗余推理步骤，浪费计算资源和响应时间。

方法的核心是一个轻量级检测头，在模型生成 token 的过程中实时监控是否出现过度思考。一旦检测到，流式控制器会介入调整生成策略。实验结果显示 93.51% 的检测准确率，同时将响应长度减少 47.2%，且不牺牲推理准确率。项目已开源。

🤖 AI 点评

过度思考是推理模型从实验室走向生产的主要障碍之一。当前的主流解决方案要么是事后裁剪，要么是调整 prompt，效果都有限。ROM 的流式检测思路更优雅——与其让模型想完再砍，不如在想的途中就判断够不够了。47.2% 的长度压缩意味着接近一半的推理成本可以直接省下来，这对大规模 Agent 部署来说是实实在在的成本优势。