Skip to content
星际流动

HorizonMath:用未解数学问题衡量 AI 的数学发现能力

发布
采集
学术前沿 7.0 分 — 100+ 未解数学问题基准,GPT 5.4 Pro 改进已知最优解,展示前沿模型数学发现能力,评估价值高
原文: arXiv

评分 7.05 · 来源:arXiv · 发布于 2026-03-16

用真正未解的数学问题测试 AI,天然免疫数据污染,GPT 5.4 Pro 在两个问题上给出了潜在新贡献

要点

HorizonMath 提出了一个新型基准测试,用 100+ 跨 8 个计算/应用数学领域的未解决问题来衡量 AI 的数学发现能力。

🤖 AI 点评

这个基准最巧妙的地方在于”解未知”——既回避了数据污染问题(困扰几乎所有数学基准),又将评估目标从”能不能做题”提升到”能不能发现”。GPT 5.4 Pro 在两个问题上超越人类最优解,虽然 pending review,但信号很强:我们可能正在接近 AI 作为数学研究工具(而非仅仅是解题工具)的拐点。这对 AI for Science 方向的从业者是重要参考。


标签: