一道中学数学题，难倒几个AI大模型

发表于 2024/7/17 21:52:33 阅读（6096）

一道中学数学题，难倒几个AI大模型

-- 测试AI大语言模型ChatGPT、Gemini和MathGPT的数学解题能力

　　十年没有写博客了，竟发现我过去写的博客都还在，真该谢谢《电子技术应用》网站还保留着我的老博客。

　　大语言模型ChatGPT的出现，预示着一场新技术的爆发。时代迫使我这个退休快20年，已进入耄耋之年的老人从零开始了解AI技术，希望不要被时代抛得太远。

　　最近，在学习、探索过程中，做了一项测试，我把它记述如后。

不久前，我出了个“沙漠取宝”的题目给我的小孙子(美国小学五年级)做：

沙漠取宝

　　在离营地100公里的沙漠中有一个宝贝，中间无人烟，开汽车去取。汽车每公里要消耗1升的油，汽车最多可以装100升的油。怎样才能把宝贝取回来？

　　隐约记得六十多年前(那时我还是高中生)，1962年的北京市中学生数学竞赛有过一道类似的题目，并要求给出最优解。根据一点印象，我把它改编成上面的“沙漠取宝”题目，放弃了最优解这一要求。

　　这是一个运筹学的题目，没有什么计算难度，从小学生到七、八十岁的老人，只要肯动脑思考，都可以筹划出一个办法把宝取回来。至于是否最优解，那是另外一码事。

　　突然想到，一些公开的AI大语言模型都有相当高的智能，是否可以用这个题目来试试他们的数学解题能力。因为我用的是美国手机号，无法注册国内的“文心一言”和“智谱清言”，所以只对OpenAI的ChatGPT和谷歌的Gemini（原Bard）作了测试。

　　对于AI大语言模型ChatGPT和Gemini的数学解题能力，我个人的初步判断：

1. ChatGPT有一定的数学功底，一开始就认准了题目的类型：“这个问题涉及一种经典的运输问题”。尽管也屡犯错误，例如几次让没油的空车开回营地。最后的思路基本上对了，虽然还有一些细节上的错误。

2. Gemini的数学功底就差多了。核心之外的话倒说得头头是道，就像文科生在做理科的题目。所以我说：看来Gemini还是一位“文艺呆(A Fuzzy)”，而不是一位“科技宅(A Techie)”。[据说在斯坦福大学，每人都被贴上“科技宅”或“文艺呆”的标签。见图书《The Fuzzy and the Techie》，中译本《文艺呆与科技宅》]。

　　大型语言模型是通用的模型，在广泛的任务中表现出色，而不是针对一项特定任务（例如数学推理）进行训练。所以在数学解题方面差强人意还能理解。

　　AI大模型是靠喂料而获得知识的。由于食材的选择性、限制性，要使通用大模型面面俱到不偏科的确是很难的。于是我找来几个以数学解题为核心的AI大模型：国产的九章MathGPT和MathGPTPro公司的MathGPTPro/Max进行测试。它们也几乎没把这个题目做出来，倒反不如通才ChatGPT。

　　通过测试，我还产生这样的感觉：这些AI大模型还缺乏人类智慧中两个极端方面的知识。

　　一个是缺乏人类的基本常识。例如：“没有油的空车不能开动”。几个AI大模型几乎都犯了同样的毛病，开着没油的空车来回跑。人类的一些基本常识并没有写入教科书，所以它们也无法从材料中学到这些常识。

　　另一个是缺少人类创造性的思维。这个题目并不难，大部分人稍微动点脑筋都可以做出来。除了ChatGPT想出一点眉目外，其他AI大模型都还找不到门。所以更谈不上掌握人类智慧中的奇思妙想了，例如像编程的Duff's device [ 达夫奇招；不应翻译成达夫设备－我过去的博客中说到过。]。

　　当然，这是仅凭一个具体的题目，做出的个人主观判断。所以我想在后续的博客里提供我与五个AI大模型就“沙漠取宝”问题对话的原始记录，以便大家根据原始对话，做出自己的分析、判断。

[1] 沙漠取宝问题(1) - 与ChatGPT的对话

[2] 沙漠取宝问题(2) - 与Gemini的对话

[3] 沙漠取宝问题(3) - 与九章MathGPT的对话

[4] 沙漠取宝问题(4) - 与MathGPT Max的对话

[5] 沙漠取宝问题(5) - 与MathGPT Pro的对话

　　这里顺便提供一种取宝方案：考虑到补给站与营地、补给站与藏宝地、以及补给站与补给站之间的距离不能超过50公里，故至少要设立两个以上的补给站。下面是一种两个补给站的方案，两个站分别设在全程1/3、2/3的点上，经过六次运油，成功取回宝贝。看看大家能否提供更优的方案。

取宝方案1.jpg

===

fy_zhu

2024-07-10 BOS-MA

« 上一篇：乔布斯的Macintosh原来是这种苹果

» 下一篇：沙漠取宝问题(7) - 与智谱清言ChatGLM的对话

朱工

早年从事单片机、实时控制系统产品设计及编程。目前耄耋之年开始学习AI技术。

一道中学数学题，难倒几个AI大模型

作者

标签

朱工

早年从事单片机、实时控制系统产品设计及编程。目前耄耋之年开始学习AI技术。

一道中学数学题，难倒几个AI大模型

作者

标签

关注微信公众号