当前位置:首页 > 智能硬件 > 人工智能AI
[导读]深度学习是近10年机器学习领域发展最快的一个分支,由于其重要性,三位教授(Geoffrey Hinton、Yann Lecun、Yoshua Bengio)因此同获图灵奖。深度学习模型的发展可以追溯到1958年的感知机(Perceptron)。1943年神经网络就已经出现雏形(源自NeuroScience),1958年研究认知的心理学家Frank发明了感知机,当时掀起一股热潮。后来Marvin Minsky(人工智能大师)和Seymour Papert发现感知机的缺陷:不能处理异或回路等非线性问题,以及当时存在计算能力不足以处理大型神经网络的问题。于是整个神经网络的研究进入停滞期。

深度学习是近10年机器学习领域发展最快的一个分支,由于其重要性,三位教授(Geoffrey Hinton、Yann Lecun、Yoshua Bengio)因此同获图灵奖。深度学习模型的发展可以追溯到1958年的感知机(Perceptron)。1943年神经网络就已经出现雏形(源自NeuroScience),1958年研究认知的心理学家Frank发明了感知机,当时掀起一股热潮。后来Marvin Minsky(人工智能大师)和Seymour Papert发现感知机的缺陷:不能处理异或回路等非线性问题,以及当时存在计算能力不足以处理大型神经网络的问题。于是整个神经网络的研究进入停滞期。

最近30年来取得快速发展。总体来说,主要有4条发展脉络。

第一个发展脉络以计算机视觉和卷积网络为主。

这个脉络的进展可以追溯到1979年,Fukushima提出的Neocognitron。该研究给出了卷积和池化的思想。1986年Hinton提出了反向传播训练MLP(之前也有几个类似的研究),该研究解决了感知机不能处理非线性学习的问题。1998年,以Yann LeCun为首的研究人员实现了一个七层的卷积神经网络LeNet-5以识别手写数字。现在普遍把Yann LeCun的这个研究作为卷积网络的源头,但其实在当时由于SVM的迅速崛起,这些神经网络的方法还没有引起广泛关注。真正使得卷积神经网络荣耀登上大雅之堂的事件是,2012年Hinton组的AlexNet(一个设计精

巧的CNN)在ImageNet上以巨大优势夺冠,这引发了深度学习的热潮。AlexNet在传统CNN的基础上加上了ReLU、Dropout等技巧,并且网络规模更大。这些技巧后来被证明非常有用,成为卷积神经网络的标配,被广泛发展,于是后来出现了VGG、GoogLenet等新模型。2016年,青年计算机视觉科学家何恺明在层次之间加入跳跃连接,提出残差网络ResNet。ResNet极大增加了网络深度,效果有很大提升。一个将这个思路继续发展下去的是近年的CVPR Best Paper中黄高提出的DenseNet。在计算机视觉领域的特定任务出现了各种各样的模型(Mask-RCNN等),这里不一一介绍。2017年,Hinton认为反向传播和传统神经网络还存在一定缺陷,因此提出Capsule Net,该模型增强了可解释性,但目前在CIFAR等数据集上效果一般,这个思路还需要继续验证和发展。

第二个发展脉络以生成模型为主。

传统的生成模型是要预测联合概率分布P(x,y)。机器学习方法中生成模型一直占据着一个非常重要的地位,但基于神经网络的生成模型一直没有引起广泛关注。Hinton在2006年的时候基于受限玻尔兹曼机(RBM,一个19世纪80年代左右提出的基于无向图模型的能量物理模型)设计了一个机器学习的生成模型,并且将其堆叠成为Deep BeliefNetwork,使用逐层贪婪或者wake-sleep的方法训练,当时模型的效果其实并没有那么好。但值得关注的是,正是基于RBM模型,Hinton等人开始设计深度框架,因此这也可以看做深度学习的一个开端。Auto-Encoder也是上个世纪80年代Hinton就提出的模型,后来随着计算能力的进步也重新登上舞台。Bengio等人又提出了Denoise Auto-Encoder,主要针对数据中可能存在的噪音问题。Max Welling(也是变分和概率图模型的高手)等人后来使用神经网络训练一个有一层隐变量的图模型,由于使用了变分推断,并且最后长得跟Auto-Encoder有点像,被称为Variational Auto-Encoder。此模型中可以通过隐变量的分布采样,经过后面的Decoder网络直接生成样本。生成对抗模型GAN(Generative Adversarial Network)是2014年提出的非常火的模型,它是一个通过判别器和生成器进行对抗训练的生成模型,这个思路很有特色,模型直接使用神经网络G隐式建模样本整体的概率分布,每次运行相当于从分布中采样。后来引起大量跟随的研究,包括:DCGAN是一个相当好的卷积神经网络实现,WGAN是通过维尔斯特拉斯距离替换原来的JS散度来度量分布之间的相似性的工作,使得训练稳定。PGGAN逐层增大网络,生成逼真的人脸。

第三个发展脉络是序列模型。

序列模型不是因为深度学习才有的,而是很早以前就有相关研究,例如有向图模型中的隐马尔科夫HMM以及无向图模型中的条件随机场模型CRF都是非常成功的序列模型。即使在神经网络模型中,1982年就提出了Hopfield Network,即在神经网络中加入了递归网络的思想。1997年Jürgen Schmidhuber发明了长短期记忆模型LSTM(Long-Short Term Memory),这是一个里程碑式的工作。当然,真正让序列神经网络模型得到广泛关注的还是2013年Hinton组使用RNN做语音识别的工作,比传统方法高出一大截。在文本分析方面,另一个图灵奖获得者Yoshua Bengio在SVM很火的时期提出了一种基于神经网络的语言模型(当然当时机器学习还是SVM和CRF的天下),后来Google提出的word2vec(2013)也有一些反向传播的思想,最重要的是给出了一个非常高效的实现,从而引发这方面研究的热潮。后来,在机器翻译等任务上逐渐出现了以RNN为基础的seq2seq模型,通过一个Encoder把一句话的语义信息压缩成向量再通过Decoder转换输出得到这句话的翻译结果,后来该方法被扩展到和注意力机制(Attention)相结合,也大大扩展了模型的表示能力和实际效果。再后来,大家发现使用以字符为单位的CNN模型在很多语言任务也有不俗的表现,而且时空消耗更少。Self-attention实际上就是采取一种结构去同时考虑同一序列局部和全局的信息,Google有一篇很有名的文章“attention is all you need”把基于Attention的序列神经模型推向高潮。当然2019年ACL上同样有另一篇文章给这一研究也稍微降了降温。

第四个发展脉络是增强学习。

这个领域最出名的当属Deep Mind,图中标出的David Silver博士是一直研究RL的高管。Q-learning是很有名的传统RL算法,Deep Q-learning将原来的Q值表用神经网络代替,做了一个打砖块的任务。后来又应用在许多游戏场景中,并将其成果发表在Nature上。Double Dueling对这个思路进行了一些扩展,主要是Q-Learning的权重更新时序上。DeepMind的其他工作如DDPG、A3C也非常有名,它们是基于Policy Gradient和神经网络结合的变种。大家都熟知的AlphaGo,里面其实既用了RL的方法也有传统的蒙特卡洛搜索技巧。Deep Mind后来提出了的一个用AlphaGo框架,但通过主学习来玩不同(棋类)游戏的新算法Alpha Zero。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

【2024年4月24日,德国慕尼黑讯】英飞凌科技股份公司(FSE代码:IFX / OTCQX代码:IFNNY)发布全新PSOC™ Edge微控制器(MCU)系列的详细信息,该系列产品的设计针对机器学习(ML)应用进行了优...

关键字: 物联网 机器学习 MCU

TDK株式会社(东京证券交易所代码:6762)新近推出InvenSense SmartEdgeMLTM解决方案,这是一种先进的边缘机器学习解决方案,为用户提供了在可穿戴设备、可听戴设备、增强现实眼镜、物联网 (IoT)...

关键字: 机器学习 物联网 传感器

北京——2024年4月19日 亚马逊云科技宣布,Meta刚刚发布的两款Llama 3基础模型Llama 3 8B和Llama 3 70B现已在Amazon SageMaker JumpStart中提供。这两款模型是一系列...

关键字: 机器学习 基础模型

2024年4月18日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 代理商贸泽电子 (Mouser Electronics) 很荣幸地宣布与Edge Impulse建立新的全球合作关系。Edge Im...

关键字: 机器学习 MCU CPU

北京——2024年4月18日 西门子中国和亚马逊云科技双方高层在西门子中国北京总部会晤,双方宣布签署战略合作协议,共同成立“联合创新团队”。基于亚马逊云科技在生成式AI领域的领先技术和服务,并结合西门子在工业领域的深厚积...

关键字: 生成式AI 机器学习 大数据

该实验室的创新技术能够增强人工智能边缘解决方案,提高神经网络能力

关键字: 人工智能 神经网络

机器学习作为人工智能领域的重要组成部分,其过程涉及到多个核心环节。本文将详细阐述机器学习的四个主要步骤:数据准备、模型选择、模型训练与评估,以及模型部署与应用,以揭示机器学习从数据到应用的完整流程。

关键字: 数据 人工智能 机器学习

随着信息技术的迅猛发展和大数据时代的到来,机器学习成为了人工智能领域中的核心技术之一。机器学习是通过模拟人类学习行为,使计算机系统能够从数据中自动发现规律、提取特征并进行预测和决策的过程。它在诸多领域取得了广泛的应用,包...

关键字: 计算机 人工智能 机器学习

机器学习算法是人工智能领域中的核心技术之一,它通过对大量数据进行学习,自动发现数据中的规律和模式,从而实现对新数据的预测、分类、聚类等任务。本文将深入探讨机器学习算法的基本过程,包括数据准备、模型选择、训练与评估等关键步...

关键字: 数据 人工智能 机器学习

随着大数据时代的到来,数据处理成为了一项至关重要的任务。传统的数据处理方法往往面临着效率低下、准确性不高等问题,而机器学习技术的兴起为数据处理带来了全新的解决方案。本文将深入探讨机器学习在数据处理中的应用,并分析其优势和...

关键字: 数据处理 计算机 机器学习
关闭