秘密对决,人类“顶尖高手”被打败

据美国趣味科学网站7月12日报道,5月中旬的一个周末,美国加利福尼亚州的伯克利召开了一次秘密的闭门数学会议。30位全世界最著名的数学家来到这里,其中有些人从英国远道而来。他们在这里与一个“推理”聊天机器人展开对决,后者的任务是解答数学家们为测试其数学能力而设计的问题。

研究人员在两天时间里向机器人抛出教授级别的问题,然后惊讶地发现,它能够回答全世界最难解决的一些问题。

弗吉尼亚大学的数学家、此次会议的牵头人和评委小野健(音)说:“我的同事们确实说,这些模型接近数学天才的水平。”

他讨论的聊天机器人由o4-mini——一个所谓的推理大型语言模型(LLM)——提供支持。美国开放人工智能研究中心(OpenAI)对它进行了训练,使它能够进行高度复杂的推理。谷歌的同类产品——Gemini 2.5 Flash——也有类似功能。就像为早期版本聊天生成预训练转换器(ChatGPT)提供支持的LLM一样,o4-mini学会了预测序列中的下一个单词。然而,与早期的LLM相比,o4-mini及其同类模型更轻量,更灵活,可以在专门的数据集上进行训练,并获得人类更强的强化。这种方法使得聊天机器人能够远比传统的LLM更深入研究复杂的数学问题。

为了追踪o4-mini的进展,OpenAI之前委托美国人工智能时代研究所(一家对LLM进行基准测试的非营利组织)提出300道尚未公布答案的数学问题。就连传统的LLM都能正确回答许多复杂的数学问题。不过,当人工智能时代研究所向几个这样的模型提出这些问题(与它们训练过的问题不同)时,最成功的模型能够解决的问题不到2%,表明这些LLM缺乏推理能力。但事实会证明,o4-mini完全不同。

人工智能时代研究所于2024年9月聘请刚刚拿到数学博士学位的埃利奥特格拉泽加入了名为FrontierMath的新基准合作项目。该项目收集了不同难度级别的新问题,前三个级别涵盖了本科、研究生和研究级别的挑战。到2025年4月,格拉泽发现o4-mini可以解决大约20%的问题。然后,他进入了第四个级别:一组甚至会对学术数学家构成挑战的问题。全世界只有一小部分人有能力提出这样的问题,更不要说回答了。参与的数学家必须签署一份保密协议,要求他们只能通过即时通讯应用软件“信号”进行交流。其他联系方式——比如传统的电子邮件——可能会被LLM扫描并在无意中训练它,从而污染数据集。

每提出一个o4-mini解答不了的问题,想出这个问题的数学家就会得到7500美元的奖励。该小组在寻找问题方面取得了缓慢而稳步的进展。但格拉泽希望加快进度,所以人工智能时代研究所在5月17日和18日举行了面对面的会议。会上,参与者确定最后一批挑战问题。30名与会者被分成六人一组。在两天的时间里,学者们相互竞争,设计出他们自己能够解决但会让人工智能推理机器人出错的问题。

在那个星期六的夜晚结束时,这个机器人出人意料的数学能力阻碍了小组的进展。小野说:“我想出了一个问题,我这个领域的专家会认为这是数论中的开放问题——一个很好的博士级问题。”他要求o4-mini解答这个问题。

在接下来的10分钟里,小野瞠目结舌地看着机器人实时展示解法,还展示了它的推理过程。机器人先是花了两分钟时间查找并掌握该领域的相关文献。然后,它在屏幕上写道,它想尝试解决一个比较简单的“游戏”版本问题,以便学习。数分钟后,它写道,它终于准备好解答比较难的问题了。五分钟后,o4-mini拿出了正确但俏皮的解法。同时也是人工智能时代研究所的自由数学顾问的小野说:“它开始变得非常厚脸皮。最后,它说:‘不需要引用,因为神秘数字是我算出来的!’”

微信审核 | 陈向阳

内容编审 | 吴一凡 廉海东

微信编辑 | 许海婷 田欣

我还没有学会写个人说明!

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信扫一扫,分享到朋友圈

秘密对决,人类“顶尖高手”被打败
返回顶部

显示

忘记密码?

显示

显示

获取验证码

Close