DeepMind(谷歌DeepMind)开发的AlphaGeometry2是去年1月发布的AlphaGeometry的升级版本。在最新研究中,研究团队称其AI系统能解决过去25年国际数学奥林匹克竞赛(IMO)中84%的几何问题。
DeepMind关注高中数学竞赛的原因在于,解决具有挑战性的欧几里得几何问题可能是开发更强大AI的关键。数学定理证明需要推理能力和选择合适解题步骤的能力,这些能力可能成为未来通用AI模型的重要组成部分。
去年夏天,DeepMind(谷歌DeepMind)展示了AlphaGeometry2与形式数学推理AI模型AlphaProof的结合系统,成功解决了2024年IMO六道题目中的四道。这种方法有望扩展到其他数学和科学领域,如复杂工程计算。
AlphaGeometry2包含Gemini语言模型和符号引擎两个核心组件。Gemini模型辅助符号引擎使用数学规则推导解法,为几何定理寻找可行证明。
AlphaGeometry2的Gemini模型用形式数学语言向引擎提供步骤建议,引擎检查这些步骤的逻辑性。搜索算法支持并行搜索多个解法,并将有用发现存入知识库。
由于几何训练数据匮乏,DeepMind创建了超过3亿个不同复杂度的定理和证明作为合成训练数据。
在2000年至2024年IMO比赛选取的50道测试题中,AlphaGeometry2解决了42道,超过金牌得主40.9的平均分。但系统仍存在局限性,无法处理可变点数、非线性方程和不等式问题。在29道更具挑战性的提名题目中,仅解决了20道。
卡内基梅隆大学计算机科学教授文斯·科尼策(Vince Conitzer)指出,虽然在基准测试上取得进展,但语言模型在简单常识问题上仍有困难,我们需要更好地理解这些系统及其风险。
研究团队发现,AlphaGeometry2的语言模型能在无符号引擎协助下生成部分解决方案。这表明大型语言模型可能实现自给自足,但在模型速度提升和解决幻觉问题之前,外部工具仍然必不可少。