一道中学数学题，难倒几个AI大模型(续篇)

发表于 2024/7/18 上午1:54:18 阅读（5081）

一道中学数学题，难倒几个AI大模型(续篇)

-- 测试AI大语言模型文心一言、智谱清言的数学解题能力

　　终于恢复了国内手机号的国际漫游功能，可以登录“文心一言”和“智谱清言”了。用同样的题目对它们进行了测试。有这样的感觉：

1. “文心一言”虽文，但它的理科基础还是相当不错。虽然最终没有得到正确答案，但是离结果也不太远了。基本上与ChatGPT不相上下。

2. “智谱清言ChatGLM”似乎应有理工的背景。它反复修改方案，的确有一种坚忍不拔的精神，但是绕来绕去没有绕出错误的怪圈。

　　通过这个数学题对AI大模型的测试(包括以前的几个测试)，我还产生这样的印象：

　　一个是它们都非常谦虚，一经指出，马上就承认错误；但是，屡错不改。

　　另一个是吸取错误教训的能力远不及人类。一个中小学生，你指出他们的答题错误，下次基本上不会出现同样的错误。AI大模型靠以前的训练获得知识，基本上不能从当前的一次错误中吸取教训。我想这可能是“屡错不改”的原因。

　　再一点是，它们大都采用试探性的机会主义思路。这个答案不行，就立马换一个数值试试，而不是从当前的解答中找出病因。

　　昨天，恰好我的大外孙女(麻省理工的大一学生)放暑假来看我，我也把这个题目交给她做。她用三等分的方案一下子就做出来了。当然，她是凭美国中学数学竞赛(AMC)的优秀成绩，去年提前一年从高中毕业，进入MIT的。

　　所以，我把“沙漠取宝”这一题目的难度，确定为难度较低的中学奥数题。

　　听说，一些AI大模型的高考成绩可以达到中上水平。我相信，在不久的将来，AI大模型也可能在中学奥赛中会取得优秀成绩。

　　网上也有消息，智谱AI推出的MathGLM的数学成绩相当好。我没有找到它公开的对话入口。我甚至问了智谱AI本家的智谱清言，它的答复是：“在尝试访问相关的MathGLM网站链接时，我遇到了一些技术问题，无法直接打开这些链接。” 所以，只能放到以后有机会再试了。

　　同样，我把我与这两个AI大模型就“沙漠取宝”问题对话的原始记录发在后面，以便大家根据原始对话，做出自己的分析、判断。

[6] 沙漠取宝问题(6) - 与文心一言的对话

[7] 沙漠取宝问题(7) - 与智谱清言ChatGLM的对话

===

fy_zhu

2024-07-15 BOS-MA

朱工