AI很聪明？有时候计算加法的水平还不如高中生

时间：2020-06-08 13:24:01

关键字： AI 人工智能

手机看文章

扫描二维码
随时随地手机看文章

[导读] AI很聪明？有时计算加法的水平还不如高中生谷歌的DeepMind的研究人员建立了两种不同类型的最先进的神经网络，看看它们能否被训练来回答高中数学问题。结果是E级，没有把6以上的个位

AI很聪明？有时计算加法的水平还不如高中生

谷歌的DeepMind的研究人员建立了两种不同类型的最先进的神经网络，看看它们能否被训练来回答高中数学问题。结果是E级，没有把6以上的个位数相加。

你会算下面这道题吗？

1+1+1+1+1+1+1等于多少？

如果你的答案是7，那么恭喜你，正确，而且你的数学要比目前最先进的深度学习神经网络技术要出色。

我没有开玩笑，根据国外媒体报道，谷歌旗下DeepMind的人工智能研究人员本周发表了一项研究，他们试图训练神经网络来解决算术、代数和微积分的基本问题。这类问题通常是对高中生的测试。

但是神经网络的表现并不好。除了不正确地猜出上述问题的答案为6外，神经网络在一次标准测试中只答对了40道题中的14道。

研究人员指出，这相当于英国16岁学生的E级。

基本上，在这一点上，人工智能很难真正学习任何基础数学。

这篇名为“分析神经模型的数学推理能力”的论文被创建为一个基准测试集，其他人可以在此基础上构建神经网络来进行数学学习，就像ImageNet被创建为一个图像识别基准测试一样。

引用纽约大学著名的神经网络评论家Gary Marcus的话，作者提到了著名的神经网络的“脆弱性”，并主张调查为什么人类能够更好地执行“关于对象和实体的离散成分推理，这是代数上的概括”。

他们提出了一系列不同的数学问题，这些问题应该促使神经网络获得这样的推理，其中包括“规划(例如，按照正确的组合顺序识别函数)”，当一个数学问题的部分可能是关联的，也可能不是分配的，也可能不是交换的。

他们写道:“如果一个模型不具备至少一部分代数泛化的能力，它就很难在一系列问题类型中做得很好。”因此，数据集。

他们提出了一系列问题，没有一个涉及几何，也没有一个是口头问题：

42*r+27*c =-1167和130*r+4*c=372，求r等于多少。

答案：4

作者综合了这些数据集，而不是将它们众包，因为这样很容易获得大量的例子。他们将问题以“自由形式”的句子形式提交给计算机，这样计算机就不会以任何方式将问题解析得更容易，比如“树”或“图”数据形式。

这些问题的基础是“美国学校数学课程(16岁以下)，仅限于文本问题(因此不包括几何问题)，它提供了作为学习课程一部分的广泛数学主题。”他们写道，他们加强了基础课程，提出了“为代数推理提供良好测试”的问题。

他们指出，为了训练一个模型，他们本可以赋予一些神经网络的数学能力，但关键是让它从无到有，并建立数学能力。因此，他们或多或少采用了标准的神经网络。

他们写道:“我们感兴趣的是评估通用模型，而不是那些已经具备数学知识的模型。”

“从翻译到通过图像标题进行解析，这些模型(通常是神经结构)如此普遍的原因在于，由于这些函数近似器的设计中编码的领域特定知识相对较少(或没有)，所以它们没有偏见。”

作者构建了两种不同的“最先进的”神经网络来解析、嵌入并回答这些问题。一种是“长短时记忆”(LSTM)神经网络，它擅长处理顺序类型的数据，由Sepp Hochreiter和Jurgen Schmidhuber在20世纪90年代开发。

他们还训练了所谓的“转换器”，这是谷歌开发的一种较新的递归神经网络，在处理各种任务时越来越受欢迎，比如嵌入文本序列来处理自然语言。

他们给了神经网络一些时间来思考，因为“模型可能需要花费几个计算步骤来整合问题中的信息”。

“为了实现这一点，我们在输出答案之前添加了额外的步骤(零输入)。”

结果一般。例如，回到本文开头的问题，当数字超过前六个计数数字时，基本加法就失败了。作者表示，他们“测试了添加1 + 1 ++ 1的模型，其中1出现n次。

“LSTM和Transformer模型都给出了n≤6的正确答案，但n = 7的错误答案是6(似乎漏掉了一个1)，n > 7的其他错误值也是6。”

这是为什么呢?就像神经网络经常发生的情况一样，一些其他的事情似乎正在幕后发生，因为当把更大的数以更长的序列相加时，比如34+53+…+936等等，神经网络能够做得很好，作者观察到。

“我们对这种行为没有一个很好的解释，”他们写道。他们假设，当他们分析问题并对其进行操作时，神经网络正在创建“子和”，而当他们失败时，这是因为“输入被‘伪装’了，由重复多次的相同数字组成”。

一般来说，神经网络在一些事情上做得最好，比如在一个长数字中找到“位置值”，比如，在一个数字中找出“十位”，比如9343012。他们也擅长四舍五入十进制数和按大小顺序排序。

对这个系统来说，最难的问题是“数字理论问题”，比如因式分解，把数字或其他数学对象分解成组成部分，以及判断一个数字是否是质数。但他们指出，人类在这方面也有困难，所以这并不奇怪。另一个问题是“混合算术”的组合，所有四种运算都在这里进行。在那里，机器的性能精度“下降到50%左右”。

为什么计算机在做加法或减法的时候做得很好，但当被要求做所有这些时却感到困惑?

“我们推测，这些模块之间的区别在于，前者可以用一种相对线性/浅层/并行的方式计算(因此通过梯度下降法相对更容易发现求解方法)，”作者沉思道，“而用括号计算混合算术表达式没有捷径。”

总而言之，在高中课程中，收集了一系列现实世界的问题，作者称E级成绩“令人失望”和“中等”。

他们得出这样的结论:当变压器神经网络构建执行比LSTM变体,“两个网络在做多”算法推理”和“模型没有学会做任何代数/算法操作的值,而是学习相对浅技巧来获得好的答案的许多模块。”

尽管如此，现在已经有了一个数据集，他们希望这是一个基线，在此基础上，其他人将加入他们的行列，训练更多种类的网络。他们指出，数据集很容易扩展，这应该能让研究人员直接达到大学水平的数学水平。

希望到那时，神经网络已经学会了加法。

AI很聪明？有时候计算加法的水平还不如高中生

阿维塔、赛力斯已入股！华为引望可能成“中国博世”

Trianz与AWS达成战略合作协议，彻底改变云采用和管理方式

人工智能驱动工具SODA V将颠覆汽车市场，使汽车开发时间和成本降低90%

从容应对未知风险----解密亚马逊云科技的韧性之道

中国游戏市场开始复苏！腾讯、网易等巨头缩减在日本投资

独立自主！华为董事：致力打造不依赖西方的技术

华为张平安：数字世界话语权最终由生态繁荣决定！

中国通信服务公布2024年中期业绩

NVI技术创新联盟成立！自主生态将带动产业链高速发展

软通动力与长三角投资达成战略合作共谋数字生态新发展

海南区6家凯悦系酒店与岚图达成战略合作，共同推动新能源出行体验

安岚携手妮可•巴菲特开启疗愈之旅在秋日红叶的浪漫中疗愈身心

不惧美国封锁！华为：我们给大家提供系统、存储等

尼尔森IQ深耕中国四十载，共绘未来新篇章

第二十二届跨盈年度B2B营销高管峰会2025聚焦"营销竞取，打破市场内卷实现认知进化"

恒久动力驰骋天地美孚1号携手周冠宇邀您纵擎驰骋，劲享驾趣体验

美通社母公司Cision发布CisionOne平台，进军亚太地区媒体监测市场

移远通信推出大模型解决方案，重塑千行百业智能边界

高途公布2024年第二季度未经审计业绩

华为发布AI百校计划：培养AI人才每年获最高100万支持