朱工

早年从事单片机、实时控制系统产品设计及编程。目前耄耋之年开始学习AI技术。

一道中学数学题,难倒几个AI大模型(续篇)

0
阅读(3148)

一道中学数学题,难倒几个AI大模型(续篇)

-- 测试AI大语言模型文心一言、智谱清言的数学解题能力

 

  终于恢复了国内手机号的国际漫游功能,可以登录“文心一言”和“智谱清言”了。用同样的题目对它们进行了测试。有这样的感觉:

1. “文心一言”虽文,但它的理科基础还是相当不错。虽然最终没有得到正确答案,但是离结果也不太远了。基本上与ChatGPT不相上下。

2. “智谱清言ChatGLM”似乎应有理工的背景。它反复修改方案,的确有一种坚忍不拔的精神,但是绕来绕去没有绕出错误的怪圈。

  通过这个数学题对AI大模型的测试(包括以前的几个测试),我还产生这样的印象:

  一个是它们都非常谦虚,一经指出,马上就承认错误;但是,屡错不改。

  另一个是吸取错误教训的能力远不及人类。一个中小学生,你指出他们的答题错误,下次基本上不会出现同样的错误。AI大模型靠以前的训练获得知识,基本上不能从当前的一次错误中吸取教训。我想这可能是“屡错不改”的原因。

  再一点是,它们大都采用试探性的机会主义思路。这个答案不行,就立马换一个数值试试,而不是从当前的解答中找出病因。

  昨天,恰好我的大外孙女(麻省理工的大一学生)放暑假来看我,我也把这个题目交给她做。她用三等分的方案一下子就做出来了。当然,她是凭美国中学数学竞赛(AMC)的优秀成绩,去年提前一年从高中毕业,进入MIT的。

  所以,我把“沙漠取宝”这一题目的难度,确定为难度较低的中学奥数题。

  听说,一些AI大模型的高考成绩可以达到中上水平。我相信,在不久的将来,AI大模型也可能在中学奥赛中会取得优秀成绩。

  网上也有消息,智谱AI推出的MathGLM的数学成绩相当好。我没有找到它公开的对话入口。我甚至问了智谱AI本家的智谱清言,它的答复是:“在尝试访问相关的MathGLM网站链接时,我遇到了一些技术问题,无法直接打开这些链接。” 所以,只能放到以后有机会再试了。

  同样,我把我与这两个AI大模型就“沙漠取宝”问题对话的原始记录发在后面,以便大家根据原始对话,做出自己的分析、判断。

      [6] 沙漠取宝问题(6) - 与文心一言的对话

      [7] 沙漠取宝问题(7) - 与智谱清言ChatGLM的对话

 

===

    fy_zhu

    2024-07-15 BOS-MA