当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 虽然自然语言通常以序列形式呈现,但语言的基本结构并不是严格序列化的。语言学家们一致认为,该结构由一套规则或语法控制(Sandra&Taft,2014),且规定了单词组成语句的逻辑。不管其表现形式

虽然自然语言通常以序列形式呈现,但语言的基本结构并不是严格序列化的。语言学家们一致认为,该结构由一套规则或语法控制(Sandra&Taft,2014),且规定了单词组成语句的逻辑。不管其表现形式如何,这种结构通常是树状的。虽然语言学家们已发现这一规律,但其潜在结构的真正起源却仍不得而知。某些理论认为,这可能与人类认知的内在机制相关(Chomsky&Lightfoot,2002)。由于人工神经网络的灵感来源于生物神经系统的信息处理及通讯模式,上述可能性让更多人对使用人工神经网络研究语言的潜在结构产生了兴趣。

从实用角度看,将树结构集成到语言模型中也很重要,原因如下:

能获得抽象化级别不断提升的分层表征,抽象化也是深度神经网络的关键特征(Bengio等,2009;LeCun等,2015;Schmidhuber,2015);

能捕获复杂语言现象,如长期依赖问题(Tai等,2015)与组分效应(compositionaleffects)(Socher等,2013);

能为梯度反向传播提供捷径(Chung等,2016)。

近些年,很多人开始关注开发能够利用语法知识或至少一些树结构(Williams等,2018;Shi等,2018)来形成更好语义表征的深度神经网络(Shen等,2017;Jacob等,2018;Bowman等,2016;Choi等,2018;Yogatama等,2016)。

获得树结构的一种简单方法是通过监督语法分析器。这些分析器生成的树结构被用来指导单词语义到句子语义的组合(Socher等,2013;Bowman等,2015),甚至在给定先前单词的情况下帮助预测下一个单词(Wu等,2017)。然而,监督分析器也有一些局限性:1)很少有语言具有用于监督分析器训练的全面注释数据;2)在可用的语言数据中,语法规则往往被打破「如推特上的表达」;3)在实际运用过程中,语言始终在变化,因此语法规则可能会演变。

另一方面,以无监督方式从可用数据中学习树结构仍是一个未解决的问题。训练过程中的繁琐结构(如左分支树结构、右分支树结构(Williams等,2018))或强化学习训练困境(Yogatama等,2016),使许多研究无功而返。而且,一些方法的实现和训练相对复杂,如Shen等人提出的PRPN(2017)。

循环神经网络(RNN)已被证明在语言建模任务中非常高效(Merity等,2017;Melis等,2017)。RNN隐式地在数据上强加了链式结构。该链式结构似乎与语言的潜在非序列化结构不一致,并且给运用深度学习方法处理自然语言数据带来了一些困难,如捕获长期依赖(Bengio等,2009)、获得良好泛化能力(Bowman等,2015)及处理否定(Socher等,2013)等。同时,有证据表明,拥有充足能力的循环神经网络有潜力隐式地编码这种树结构(Kuncoro等,2018)。但问题是,在模型架构上强加树结构归纳先验会导致更好的语言模型吗?

本文介绍了一种面向循环神经网络的新型归纳偏置:有序神经元。这种归纳偏置增强了神经元之间的依赖性,这种依赖性反映了每个神经元内所存储信息的生命周期。换言之,一些高级神经元储存长期信息,而低级神经元储存短期信息。为了避免高级和低级神经元之间的固定划分,本文进一步提出了一种新的激活函数cumax()来主动分配神经元去存储长/短期信息。基于cumax()和长短期记忆网络(LSTM)架构,本文设计了一种新模型──ON-LSTM,它使RNN模型能够能够在不破坏其序列形式的情况下执行树状合成。该模型在语言建模、无监督成分句法分析(unsupervisedconsTItuencyparsing)、有针对性的语法评估(Marvin&Linzen,2018)及逻辑推理(Bowman等,2015)四个任务上表现优异。其在无监督成分句法分析任务上的结果表明,本文提出的归纳偏置与人类专家提出语法原则是一致的。我们的实验还表明,就长期依赖和较长序列泛化而言,ON-LSTM比标准LSTM模型性能更佳,

论文:ORDEREDNEURONS:INTEGRATINGTREESTRUCTURESINTORECURRENTNEURALNETWORKS

论文链接:https://openreview.net/forum?id=B1l6qiR5F7

摘要:循环神经网络模型已被广泛用于处理由潜在树结构控制的序列数据。以前的研究表明,RNN模型(尤其是基于LSTM的模型)能够学习利用潜在树结构。然而,它的性能却始终落后于基于树的模型。我们提出了一种新的归纳偏置──有序神经元(OrderedNeuron),它强制执行了隐藏状态神经元之间更新频率的顺序。本文表明,有序神经元能够将潜在树结构明确整合到循环模型中。为此,我们提出了一种新的RNN单元:ON-LSTM,其在语言建模、无监督成分句法分析、有针对性的语法评估及逻辑推理四个任务上表现优异。

图1:成分句法分析树与ON-LSTM的关系。给定token序列(x1,x2,x3),其成分句法分析树如图(a)所示。图(b)展示了树结构的块状图,其中S与VP节点都跨越了不止一个时间步。高级节点的表征在跨越多个时间步时应保持相对一致。图(c)展示了每组神经元在每个时间步的更新神经元比例。在每个时间步,给定输入词,较深的灰色块代表完全更新,较浅的灰色块代表部分更新。三组神经元的更新频率不尽相同。较高级别的组更新频率较低,而较低级别的组更新频率较高。

ON-LSTM

本文提出了一种新的RNN单元──ON-LSTM,作为有序神经元的实现。该新模型与标准LSTM模型的架构相似。

ON-LSTM与标准LSTM模型的唯一区别在于,我们排除了单元状态ct的更新功能,并以新的更新规则替代,后续章节将会详细解释。与之前一样,运用遗忘门ft与输入门it控制单元状态ct上的清除和写入操作。一般来说,由于标准LSTM的门不会在其各个单元中强加拓扑结构,所以各个单元的行为不会反映出排序。

实验
 

表1:宾州树库语言建模任务中验证集和测试集上的单个模型困惑。标注「TIed」的模型在嵌入和softmax权重上使用权重绑定。标注「*」的模型重点关注改进RNN语言模型的softmax部分。

表2:在完整的WSJ10和WSJ测试集上评估无标记「parsingF1」的结果。本文的语言模型分三层,每层都提供了dt序列。本文给出了所有层的分析性能。RL-SPINN和ST-Gumbel的结果在完整的WSJ(Williams等,2017)上评估。PRPN模型在WSJ测试集(Htut等,2018)上评估。

表3:ON-LSTM和LSTM在每个测试案例上的整体准确率。「Long-termdependency」表示目标词对之间存在一个不相关的短语或从句,而「short-termdependency」意味着没有这猴子那个分散注意力的情况。

本文来源:机器之心

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

双方的合作促成了尖端人工智能视觉解决方案,提高了效率、连通性和成本效益

关键字: 人工智能 智能家居 机器学习

2024年4月25日,神经元于北京车展中国芯展区重磅发布了其高性价比车规级Switch芯片“KD6610”。北京神经元网络技术有限公司董事长薛百华针对这两款新品进行了精彩分享。一汽股权投资有限公司战略及投资研究室主任李炜...

关键字: 神经元 Switch KD6610 车规级 TSN

轻量级AI定制模型助力低成本快速部署 北京2024年4月18日 /美通社/ -- 数据和人工智能(AI)领域的领先者SAS—今日在SAS Innovate大会上首次展示了一款变革性的、旨在帮助企业直面业务挑战的解决方案...

关键字: SAS AI模型 人工智能 INNOVATE

四月的上海,生机盎然繁花盛开。备受瞩目的“CHINAPLAS 2024 国际橡塑展”今日拉开帷幕,将一连四天(4月23 - 26日)在国家会展中心(上海)盛装绽放。展会规模空前,展商数量历史性地攀升至4,420家,相比2...

关键字: 新能源汽车 锂电技术 人工智能

创新打造云生态,共创智慧新未来

关键字: 人工智能 云实验室

眼下,人工智能不仅能辅助科学研究与艺术创作,还能实现自动驾驶、打造“无人农场”和“黑灯工厂”,成为解锁新质生产力的关键钥匙。

关键字: 人工智能 AI 无人农场

随着科技的飞速发展,人工智能已经逐渐走进我们的生活。从智能手机到自动驾驶汽车,人工智能正不断改变着我们的日常体验。然而,这只是科技革命的一个起点。

关键字: 人工智能 AI 自动驾驶

在人工智能的快速发展中,加强AI监管与推动AI技术的进步同等重要。从技术角度来看,可以通过可解释AI等技术手段增强AI的可信度。

关键字: 人工智能 AI 增强AI

上海2024年4月22日 /美通社/ -- 近日,全球领先人力资源咨询与解决方案提供商德科集团(The Adecco Group)发布《AI大变革中,全球商业领袖的前进之路(Leading Through the Gre...

关键字: AI 人工智能 Gen AI
关闭
关闭