当前位置:首页 > 智能硬件 > 人工智能AI
[导读]循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络。

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。对循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络。

1982年,美国加州理工学院物理学家John Hopfield发明了一种单层反馈神经网络Hopfield Network,用来解决组合优化问题。这是最早的RNN的雏形。86年,另一位机器学习的泰斗Michael I.Jordan定义了Recurrent的概念,提出Jordan Network。1990年,美国认知科学家Jeffrey L.Elman对Jordan Network进行了简化,并采用BP算法进行训练,便有了如今最简单的包含单个自连接节点的RNN模型。但此时RNN由于梯度消失(Gradient Vanishing)及梯度爆炸(Gradient Exploding)的问题,训练非常困难,应用非常受限。直到1997年,瑞士人工智能研究所的主任Jurgen Schmidhuber提出长短期记忆(LSTM),LSTM使用门控单元及记忆机制大大缓解了早期RNN训练的问题。同样在1997年,Mike Schuster提出双向RNN模型(Bidirectional RNN)。这两种模型大大改进了早期RNN结构,拓宽了RNN的应用范围,为后续序列建模的发展奠定了基础。此时RNN虽然在一些序列建模任务上取得了不错的效果,但由于计算资源消耗大,后续几年一直没有太大的进展。

2010年,Tomas Mikolov对Bengio等人提出的feedforward Neural network language model(NNLM)进行了改进,提出了基于RNN的语言模型(RNN LM),并将其用在语音识别任务中,大幅提升了识别精度。在此基础上Tomas Mikolov于2013年提出了大名鼎鼎的word2vec。

与NNLM及RNNLM不同,word2vec的目标不再专注于建模语言模型,而是专注于如何利用语言模型学习每个单词的语义化向量(distributed representation),当然distributed representation概念最早要来源于Hinton 1986年的工作。word2vec引发了深度学习在自然语言处理领域的浪潮,除此之外还启发了knowledge representation,network representation等新的领域。

另一方面,2014年Bengio团队与Google几乎同时提出了seq2seq架构,将RNN用于机器翻译。没过多久,Bengio团队又提出注意力Attention机制,对seq2seq架构进行改进。自此机器翻译全面进入到神经机器翻译(NMT)的时代,NMT不仅过程简单,而且效果要远超统计机器翻译的效果。目前主流的机器翻译系统几乎都采用了神经机器翻译的技术,除此之外,Attention机制也被广泛用于基于深度学习的各种任务中。

近两年,相关领域仍有一些突破性进展,2017年,Facebook人工智能实验室提出基于卷积神经网络的seq2seq架构,将RNN替换为带有门控单元的CNN,提升效果的同时大幅加快了模型训练速度。此后不久,Google提出Transformer架构,使用Self-Attention代替原有的RNN及CNN,更进一步降低了模型复杂度。在词表示学习方面,Allen人工智能研究所2018年提出上下文相关的表示学习方法ELMo,利用双向LSTM语言模型对不同语境下的单词,学习不同的向量表示,在6个NLP任务上取得了提升。OpenAI团队在此基础上提出预训练模型GPT,把LSTM替换为Transformer来训练语言模型,在应用到具体任务时,与之前学习词向量当作特征的方式不同,GPT直接在预训练得到的语言模型最后一层接上Softmax作为任务输出层,然后再对模型进行微调,在多项任务上GPT取得了更好的效果。

不久之后,Google提出BERT模型,将GPT中的单向语言模型拓展为双向语言模型(Masked Language Model),并在预训练中引入了sentence prediction任务。BERT模型在11个任务中取得了最好的效果,是深度学习在NLP领域又一个里程碑式的工作。BERT自从在arXiv上发表以来获得了研究界和工业界的极大关注,感觉像是打开了深度学习在NLP应用的潘多拉魔盒。随后涌现了一大批类似于“BERT”的预训练(pre-trained)模型,有引入BERT中双向上下文信息的广义自回归模型XLNet,也有改进BERT训练方式和目标的RoBERTa和SpanBERT,还有结合多任务以及知识蒸馏(Knowledge Distillation)强化BERT的MT-DNN等。这些种种,还被大家称为BERTology。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

液压舵机壳体是航空液压操纵系统的核心零件 , 内部包含大量复杂流道 。传统的流道路径人工设计方法效率低下 , 结果一致性差 。针对该问题 , 提出了一种基于混合近端策略优化(HPP0算法)的流道路径规划算法 。通过分析流...

关键字: 液压流道规划 机器学习 HPP0算法 减材制造 液压舵机壳体

深入探索这一个由 ML 驱动的时域超级采样的实用方法

关键字: 机器学习 GPU 滤波器

传统的网络安全防护手段多依赖于预先设定的规则和特征库,面对日益复杂多变、层出不穷的新型网络威胁,往往力不从心,难以做到及时且精准的识别。AI 技术的融入则彻底改变了这一局面。机器学习算法能够对海量的网络数据进行深度学习,...

关键字: 网络安全 机器学习 辅助决策

人工智能(AI)和机器学习(ML)是使系统能够从数据中学习、进行推理并随着时间的推移提高性能的关键技术。这些技术通常用于大型数据中心和功能强大的GPU,但在微控制器(MCU)等资源受限的器件上部署这些技术的需求也在不断增...

关键字: 嵌入式系统 人工智能 机器学习

北京——2025年7月30日 自 2018 年以来,AWS DeepRacer 已吸引全球超过 56 万名开发者参与,充分印证了开发者可以通过竞技实现能力成长的实践路径。如今,亚马逊云科技将通过亚马逊云科技AI联赛,将这...

关键字: AI 机器学习

2025年7月28日 – 专注于引入新品的全球电子元器件和工业自动化产品授权代理商贸泽电子 (Mouser Electronics) 持续扩展其针对机器学习 (ML) 工作优化的专用解决方案产品组合。

关键字: 嵌入式 机器学习 人工智能

在这个高速发展的时代,无论是健身、竞技、兴趣活动,还是康复训练,对身体表现的感知与理解,正成为提升表现、实现突破的关键。如今,先进技术正为我们架起一座桥梁,将每一次身体活动转化为有价值的洞察,帮助我们更聪明地训练、更高效...

关键字: 传感器 机器学习 IMU

在科技飞速发展的当下,边缘 AI 正经历着一场深刻的变革。从最初的 TinyML 微型机器学习探索低功耗 AI 推理,到边缘推理框架的落地应用,再到平台级 AI 部署工具的兴起以及垂类模型的大热,我们已经成功实现了 “让...

关键字: 机器学习 边缘 AI 无人机

在AI算力需求指数级增长的背景下,NVIDIA BlueField-3 DPU凭借其512个NPU核心和400Gbps线速转发能力,为机器学习推理提供了革命性的硬件卸载方案。通过将PyTorch模型量化至INT8精度...

关键字: PyTorch 机器学习 DPU

中国,北京,2025年7月17日——随着AI迅速向边缘领域挺进,对智能边缘器件的需求随之激增。然而,要在小尺寸的微控制器上部署强大的模型,仍是困扰众多开发者的难题。开发者需要兼顾数据预处理、模型选择、超参数调整并针对特定...

关键字: 边缘AI 嵌入式 机器学习
关闭