好奇心对于学习人工智能有帮助吗

[导读] 学习的软件正在改变世界，但需要监督。人类以两种方式监督它们，第一种是向机器学习算法展示描述当下任务的大数据，例如有标记的猫和狗的图片，让算法区分两者。另一种监督是在高度结构化的环境中设定一个特定

学习的软件正在改变世界，但需要监督。人类以两种方式监督它们，第一种是向机器学习算法展示描述当下任务的大数据，例如有标记的猫和狗的图片，让算法区分两者。另一种监督是在高度结构化的环境中设定一个特定目标，例如在某款电子游戏中获得高分，再让算法尝试众多可能性，直到找到能实现目标的那一个。

这两种“监督学习（Supervised Learning）”的方法已经在人工智能领域带来了突破。2012年，加拿大多伦多大学的一组研究人员有第一种方法构建了AlexNet，这个软件在一项竞赛中识别出的图片比其最接近的竞争对手多了十分之一。2015年，美国Alphabet旗下的英国人工智能公司DeepMind，研究人员使用了第二种方法教一个算法玩电子游戏雅达利（Atari），水平超过人类，后来更在围棋上取得的了长期的胜利。

这些突破为今天AI很多令人兴奋的发展奠定了基础。但监督学习也存在缺陷，人工指导涉及标记数据或设计虚拟环境等人工作业，不仅成本高昂，指导完成后还不能用于其他学习。监督学习不大现实，在现实的世界里，我们通常不会标记事物或为学习进展提供明确的信号。AlexNet和DeepMind的游戏智能软件都需要几百万至几十亿个示例或模拟，以及消耗大量电力的强大计算机。位于巴黎的法国国家信息与自动化研究所（Inria）的研究员Pierre-Yves Oudeyer说，“如果你打算在每次新的训练任务中都这样做，那么就需要几十个核电站专门为你服务“。

因此，AI若要真正腾飞，还需要些别的东西。Oudeyer表示，这推动研究人员开始探索人类了解世界的基本机制之一“好奇心（Curiosity）”。Oudeyer和其他人不再使用由人类创建的函数来训练算法，而是在过去20年里开发人工智能体，用它们自己内在的奖励系统来检视周围的世界并收集数据，这样的工作正开始获得成功。

第一代好奇心AI使用了“预测错误（Prediction Error）”来激励智能体。该软件会探索它需要研究的实体或虚拟环境，寻找与它的预期差异很大的东西，换句话说，它是在搜索新奇数据。这种方法行的通，但有一个很大的缺陷，例如观察过往车辆的智能体可能会沉迷于过往车辆的颜色顺序，因为它对下一部车的颜色做出的预测几乎总是错误的。因此一个好奇的机器人如果不去学习怎么走下楼梯，而是为了寻求信息的刺激反覆从楼梯上滚下去并没有任何意义。

解决这个问题的方法是把注意力放在智能体的预测错误变化率而不是错误本身。使用这种方法让机器人在刚开始观察日出日落时预测错误会很多，但随着它对一个物理系统实际属性的认识加深，错误将逐渐减少。将预测错误系统的变化率用作智能体进入下一个任务的信号等于给它设了一个无聊阈值。如果一个要搞清过往车辆颜色规律的机器人使用这样一个系统，它会保持稳定的错误率，进而感到无聊。

今年6月，Oderyer在实际研究中尝试了他的好奇心算法。他的研究小组在法国Aquitaine小镇的一些公立和私立学校对600名小学生展开了测试。他的构想是为每个孩子的数学学习过程建模，提供因人而异的优化练习。该系统名为KidLearn，它把每个孩子都视为自己的好奇智能体，调整学习内容以适应该孩子的理解水平和学习进度。与其他不同的是，KidLearn不依赖从其他儿童那里收集到的数据作为引导，而主要是根据孩子的好奇行来调整。Oderyer的研究人员很快将会公布这次试验系统的表现。

硅谷的研究人员也一直在研究好奇心。在最近的一篇论文中，来自美国加州大学伯克利分校和非营利性研究公司OpenAI的Deepak Pathak表明，尽管他们的智能体在玩电子游戏时没有得到任何输入，也没有在被打败或过关时得到任何信号，好奇心驱动的学习仍然在一系列虚拟环境中运作非常良好。

同时还有其他方式可以赋予机器人探索的冲动。美国旧金山优步AI实验室的研究员Kenneth Stanley模仿了进化过程。他的系统从一组随机算法开始运作，从中选出一个看起来适合手头任务的算法，由此生出一组算法，最终演变出一个最适合这项工作的算法。Stanley指出，进化可以产生目标驱动的优化所无法产生的偶然结果。生物进化对飞行没有明显好奇，但仍然演化出了鸟类。

所有这些实验都表明了，一套更完整的学习算法正在出现。由好奇心或进化驱动的人工智能体可应用于学习的早期阶段，也更适合缺乏大量数据的零散环境。一旦找到有趣的东西，就可以接着进行监督学习，以确保能准确学习到特定的功能。