HorizonMath：用未解数学问题衡量 AI 的数学发现能力

评分 7.05 · 来源：arXiv · 发布于 2026-03-16

用真正未解的数学问题测试 AI，天然免疫数据污染，GPT 5.4 Pro 在两个问题上给出了潜在新贡献

要点

HorizonMath 提出了一个新型基准测试，用 100+ 跨 8 个计算/应用数学领域的未解决问题来衡量 AI 的数学发现能力。

设计哲学：选择”发现难但验证易”的问题——需要真正的数学洞察力才能求解，但解的正确性可以自动化高效验证
天然防污染：因为答案本身未知，不存在数据泄露问题。大多数 SOTA 模型在该基准上得分接近 0%
突破性发现：GPT 5.4 Pro 在两个问题上提出了优于已知最优发表结果的解，代表潜在的原创数学贡献（待专家审核）
对比优势：现有研究级基准依赖形式化证明验证或人工审核，扩展成本高；HorizonMath 的自动验证框架更易规模化
开源发布为社区持续贡献的平台

🤖 AI 点评

这个基准最巧妙的地方在于”解未知”——既回避了数据污染问题（困扰几乎所有数学基准），又将评估目标从”能不能做题”提升到”能不能发现”。GPT 5.4 Pro 在两个问题上超越人类最优解，虽然 pending review，但信号很强：我们可能正在接近 AI 作为数学研究工具（而非仅仅是解题工具）的拐点。这对 AI for Science 方向的从业者是重要参考。