秘密对决，人类“顶尖高手”被打败

据美国趣味科学网站7月12日报道，5月中旬的一个周末，美国加利福尼亚州的伯克利召开了一次秘密的闭门数学会议。30位全世界最著名的数学家来到这里，其中有些人从英国远道而来。他们在这里与一个“推理”聊天机器人展开对决，后者的任务是解答数学家们为测试其数学能力而设计的问题。

研究人员在两天时间里向机器人抛出教授级别的问题，然后惊讶地发现，它能够回答全世界最难解决的一些问题。

弗吉尼亚大学的数学家、此次会议的牵头人和评委小野健(音)说：“我的同事们确实说，这些模型接近数学天才的水平。”

他讨论的聊天机器人由o4-mini——一个所谓的推理大型语言模型(LLM)——提供支持。美国开放人工智能研究中心(OpenAI)对它进行了训练，使它能够进行高度复杂的推理。谷歌的同类产品——Gemini 2.5 Flash——也有类似功能。就像为早期版本聊天生成预训练转换器(ChatGPT)提供支持的LLM一样，o4-mini学会了预测序列中的下一个单词。然而，与早期的LLM相比，o4-mini及其同类模型更轻量，更灵活，可以在专门的数据集上进行训练，并获得人类更强的强化。这种方法使得聊天机器人能够远比传统的LLM更深入研究复杂的数学问题。

为了追踪o4-mini的进展，OpenAI之前委托美国人工智能时代研究所(一家对LLM进行基准测试的非营利组织)提出300道尚未公布答案的数学问题。就连传统的LLM都能正确回答许多复杂的数学问题。不过，当人工智能时代研究所向几个这样的模型提出这些问题(与它们训练过的问题不同)时，最成功的模型能够解决的问题不到2%，表明这些LLM缺乏推理能力。但事实会证明，o4-mini完全不同。

人工智能时代研究所于2024年9月聘请刚刚拿到数学博士学位的埃利奥特格拉泽加入了名为FrontierMath的新基准合作项目。该项目收集了不同难度级别的新问题，前三个级别涵盖了本科、研究生和研究级别的挑战。到2025年4月，格拉泽发现o4-mini可以解决大约20%的问题。然后，他进入了第四个级别：一组甚至会对学术数学家构成挑战的问题。全世界只有一小部分人有能力提出这样的问题，更不要说回答了。参与的数学家必须签署一份保密协议，要求他们只能通过即时通讯应用软件“信号”进行交流。其他联系方式——比如传统的电子邮件——可能会被LLM扫描并在无意中训练它，从而污染数据集。

每提出一个o4-mini解答不了的问题，想出这个问题的数学家就会得到7500美元的奖励。该小组在寻找问题方面取得了缓慢而稳步的进展。但格拉泽希望加快进度，所以人工智能时代研究所在5月17日和18日举行了面对面的会议。会上，参与者确定最后一批挑战问题。30名与会者被分成六人一组。在两天的时间里，学者们相互竞争，设计出他们自己能够解决但会让人工智能推理机器人出错的问题。

在那个星期六的夜晚结束时，这个机器人出人意料的数学能力阻碍了小组的进展。小野说：“我想出了一个问题，我这个领域的专家会认为这是数论中的开放问题——一个很好的博士级问题。”他要求o4-mini解答这个问题。

在接下来的10分钟里，小野瞠目结舌地看着机器人实时展示解法，还展示了它的推理过程。机器人先是花了两分钟时间查找并掌握该领域的相关文献。然后，它在屏幕上写道，它想尝试解决一个比较简单的“游戏”版本问题，以便学习。数分钟后，它写道，它终于准备好解答比较难的问题了。五分钟后，o4-mini拿出了正确但俏皮的解法。同时也是人工智能时代研究所的自由数学顾问的小野说：“它开始变得非常厚脸皮。最后，它说：‘不需要引用，因为神秘数字是我算出来的！’”

微信审核 | 陈向阳

内容编审 | 吴一凡廉海东

微信编辑 | 许海婷田欣