大语言模型几何难题解决能力年度对比

29 阅读2分钟

大语言模型解决几何难题的年度进展对比

问题背景

通过一个具体的几何网格正方形计数难题,可以清晰展示大语言模型在短短一年多时间内的显著进步。该难题要求在一个十字形点阵上找出所有可能的正方形,其中正方形的四个角必须位于网格点上。

历史对比:GPT-4o的表现

在2024年6月,使用当时领先的GPT-4o模型解决此问题时,经历了艰难的过程:

  • 初始直接询问正方形数量时,模型无法给出正确答案
  • 改为请求编写Python程序来求解,需要约两小时时间
  • 经过超过40次的来回迭代和答案优化
  • 最终才获得能正确工作的代码

正确答案是在该网格上可以绘制21个不同大小的正方形。

Claude Sonnet 4.5的测试结果

使用当前被认为最佳编码模型的Claude Sonnet 4.5进行相同测试:

直接询问表现

首次直接询问正方形数量时,模型给出了错误答案,先是声称有18个正方形,后修正为17个,均未达到正确的21个。

编程求解表现

当给出与之前测试GPT-4o完全相同的提示——要求编写Python程序时,结果令人惊讶:

  • 模型在5秒内生成完整代码
  • 代码一次性运行成功,正确找出所有21个正方形
  • 程序自动按边长分类并生成可视化图表
  • 仅需一次后续提示即可完善图表展示

技术实现细节

生成的Python程序包含以下核心功能:

# 定义网格点坐标
points = [
    (3, 6), (4,  ︎6), (3, 5), (4, 5),
    (1, 4), (2, 4), (3, 4), (4, 4), (5, 4), (6, 4),
    (1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3),
    (3, 2), (4, 2), (3, 1), (4, 1)
]

# 正方形检测算法
def is_square(p1, p2, p3, p4):
    # 通过距离计算验证四点是否构成正方形
    # 检查4条相等边和2条相等对角线

程序输出结果:

  • 边长为1.0:9个正方形
  • 边长为1.41:4个正方形
  • 边长为2.24:2个正方形
  • 边长为2.83:4个正方形
  • 边长为3.61:2个正方形
  • 总计:21个正方形

结论

这一对比实验清晰展示了大语言模型在解决复杂编程问题能力上的巨大飞跃。同一个几何难题,从需要两小时多次迭代优化,发展到仅需5秒即可生成完整正确解决方案,体现了模型在代码生成、几何推理和问题解决方面的显著进步。