评分 7.05 · 来源:arXiv · 发布于 2026-03-16
用真正未解的数学问题测试 AI,天然免疫数据污染,GPT 5.4 Pro 在两个问题上给出了潜在新贡献
要点
HorizonMath 提出了一个新型基准测试,用 100+ 跨 8 个计算/应用数学领域的未解决问题来衡量 AI 的数学发现能力。
- 设计哲学:选择”发现难但验证易”的问题——需要真正的数学洞察力才能求解,但解的正确性可以自动化高效验证
- 天然防污染:因为答案本身未知,不存在数据泄露问题。大多数 SOTA 模型在该基准上得分接近 0%
- 突破性发现:GPT 5.4 Pro 在两个问题上提出了优于已知最优发表结果的解,代表潜在的原创数学贡献(待专家审核)
- 对比优势:现有研究级基准依赖形式化证明验证或人工审核,扩展成本高;HorizonMath 的自动验证框架更易规模化
- 开源发布为社区持续贡献的平台
🤖 AI 点评
这个基准最巧妙的地方在于”解未知”——既回避了数据污染问题(困扰几乎所有数学基准),又将评估目标从”能不能做题”提升到”能不能发现”。GPT 5.4 Pro 在两个问题上超越人类最优解,虽然 pending review,但信号很强:我们可能正在接近 AI 作为数学研究工具(而非仅仅是解题工具)的拐点。这对 AI for Science 方向的从业者是重要参考。