在五月中旬,由非营利组织EpochAI主办的FrontierMath研讨会在加州伯克利秘密举行。三十位全球最负盛名的数学家齐聚一堂,他们的任务是设计出人类专家能够解决、但最先进的AI却会束手无策的数学难题。这场对决的主角,是来自OpenAI的推理大语言模型o4-mini。
o4-mini在处理需要深度几何直觉和拓扑理解的问题时表现尤其出色,而且其速度远超人类,能在几分钟内完成人类专家需要数周甚至数月才能完成的工作。尽管最终与会者们还是成功找到了10个能够难住AI的问题,但这个结果本身还是给数学家们带来极大冲击——相比于传统语言模型在类似基准测试中不到2%的成功率,o4-mini展现出的数学推理能力已经达到了前所未有的水平。
然而,数学家Jasper Zhang提出了一些异议,他表示,虽然AI的进步确实惊人,但原始报道在某些方面有些夸张,需要澄清。他指出,每个问题都需要一个数值答案,这与高等数学的核心有显著区别。现代数学研究的中心通常是推理与证明,而非纯粹的计算。AI可能并非通过类似人类的、严谨的逻辑推演来“理解”问题,而是利用其强大的模式匹配和计算能力,找到了一条通往正确数字的路径。
总的来说,AI在数学领域的进步令人震惊,但其深度推理能力和原创性思维仍有待提高。在未来,AI可能会成为数学家的助手,帮助发现新理论和解决开放问题,但在可预见的未来,人类的监督,尤其是在验证和综合方面,仍然是不可或缺的。