这是读芯术解读的第篇论文
ACLLongPapers
使用波束搜索在人类脑电图中查找语法
Findingsyntaxinhumanencephalographywithbeamsearch
牛津大学
UniversityofOxford
本文是牛津大学发表于ACL的工作,通过对人脑电波中earlypeak现象的分析,发现循环神经网络语法生成模型(RNNGs)与波束搜索的组合,能够对人脑进行自然语言理解时的语法处理过程进行比较好的建模。这一篇文章属于自然语言处理与人脑研究的交叉领域的成果,实验充分,可以将其认作从人脑生物学角度对深度学习方法有效性的肯定。
引言
计算心理语言学是计算语言学领域中目前来看最有可能做出成果的方向,它们提供了一种深入了解人类句子处理机制运作的方法。本文的贡献在于它结合了概率生成语法(RNNG等)提供了一个解析过程,使用语法管理从一个单词到下一个单词的一系列语法派生。通过复杂性度量,这个过程的中间状态会产生关于语言理解困难的定量预测。将这些预测与人类脑电图(EEG)的数据并置,我们发现它们可靠地得出了包括p在内的几个振幅效应,而p与句法处理密切相关。
模型
下图为本文使用的递归神经网络语法配置。完整的成分,如[NPthehungrycat],由数字向量表示在堆栈上,这些数字向量是所示的句法组合函数的输出。
递归神经网络是生成树的概率模型。树的概率通过链式规则根据派生动作概率进行分解,这些动作概率是以以前的动作为条件,即它们是基于历史的语法。在RNNG中,这些步骤遵循结构树的深度优先遍历。
这个生成故事的每一步都取决于堆栈的状态,这个堆栈被“神经化”,使得每个堆栈条目对应于一个数值向量。在推导的每个阶段,以神经序列模型的最终状态的形式提供汇总整个堆栈的单个向量。这是使用Dyer-等人的堆栈LSTM来实现的。这些堆栈汇总向量,允许RNNG对左上下文敏感,左上下文会被概率上下文无关语法中的独立性假设所屏蔽,如下表。
在本文中,这些堆栈摘要用作多层感知器的输入,其输出通过softmax在三种可能的解析器操作上转换为分类分布:打开新组件、关闭最新组件或生成单词。做出艰难的决定,如果选择第一个或最后一个选项,那么通过多层感知器再次使用相同的向量值堆栈摘要来决定打开哪个特定的非终端,或者生成哪个特定的单词。
短语关闭操作触发一个句法组合函数,如下表,该函数将一系列子树向量压缩为单个向量。这是通过对子向量列表应用双向LSTM来实现的。
在训练时使用反向传播自适应地调整所有这些分量的参数,使相对于树语料库的交叉熵最小。在测试时,我们使用beam搜索进行增量解析。
波束搜索是解决生成语法中出现的搜索问题的一种方法,即对有时被称作“强生成”句子的语言的构造性描述。该过程如下图所示。
为了将计算模型与测量的人体反应联系起来,需要一些辅助假设或链接规则。在语言领域,这些传统上被称为复杂性度量,因为它们量化特定句子“处理复杂性”的方式。当一个度量对每个连续单词提供预测时,它是一个增量复杂度度量。SURPRISAL度量是在词束上计算的,即在每个连续单词上得分最高的部分句法分析。为了获得一个更可靠的估计,ENTROPY及其第一差值是在nextword本身上计算的,nextword本身的大小不同,但通常比nextword大得多。
脑电图(EEG)是一种测量头皮上非常小的电压波动的实验技术。有关强调其对计算模型的影响的评论,请参见Murphy等人。我们分析了33名参与者的脑电图录音,他们被动地听了爱丽丝梦游仙境探险的第一章的口述朗诵。所有参与者在课后8题理解测验中的得分明显较高。另外排除了10个数据集,因为不满足这个行为准则,6个由于过度噪声,3个由于实验错误。从61个活性电极(阻抗25k)在Hz下记录数据,并分成个时段,在故事中每个单词开始时跨越-0.3-1s。使用ICA去除眼部伪影,并排除残留的过度噪声。数据从0.5-40Hz进行过滤,基线根据ms的词前间隔进行校正,由于感兴趣的解析变量与词类之间的相互作用,数据被分离为内容词和功能词的时期。
在RNNG培训期间,第一章被用作开发集,一直进行到该集上所有解析器操作的单词困惑达到最小个。这种性能是通过状态向量为单位宽的RNNG获得的。相应的LSTM语言模型状态向量有个单元,达到了90.2的单词困惑度。当然,RNNG估计了树和词的联合概率,所以这两个困惑级别不能直接比较。
实验分析
为了探讨RNNG+beam搜索组合作为语言处理难度认知模型的适用性,我们针对每个度量对回归模型进行了拟合。考虑了六个波束尺寸k={,,,,,0}.。下表总结了这些目标预测因子达到的结果。
下图是相对于Maris和Oostenveld(7)之后的置换测试,绘制的值是暗阴影区域的拟合回归系数和95%的置换间隔,统计上没有符号。零点表示口语单词的开始。插图显示具有正负号效应的电极,以及横跨正负号时间间隔的大平均系数值。该图表平均了爱丽丝《仙境历险记》第一章中的所有内容词。
下图是感兴趣的区域。左边的第一个区域称为“N”,包括发病后-毫秒时间窗内的中脑后电极。在中间区域,“P”包括后电极-ms起病后。最右侧的“ANT”区域仅由发病后-毫秒的前电极组成。
从以上的模型比较可以看出,前期峰值是可归属的,而后期峰值是不可归属的到RNNG的复合函数。Choe和Charniak的“解析为语言建模”方案可能解释p类波,但不能解释早期峰值。这个较早的峰值是RNNG在SURPRISAL下得到的峰值,但只有当RNNG包含组合机制时才会出现。这种结果模式为整个建模任务提供了一种方法。在这种方法中,语法和处理策略是相同的,而替代的复杂性度量,如SURPRISAL和DISTANCE,可以在大脑的不同时间或不同位置解释统一的模型。这与Brouwe和Wehbe的方法正好相反,他们使用相同的复杂度度量来解释同一神经网络的不同层。
下表是似然比检验表明,从句法成分的RNNGs推导出的预测因子回归模型在解释区域“ANT”的早期峰值方面比退化的模型做得更好。在“P”区域的类似比较表明,模型得到了改进,但是改进并没有达到Bonferroni校正(粗体文本)所规定的=0.的显著性阈值。RNNGs缺乏语法成分做改善基线模型()包含词汇预测和LSTM基线。
结论
递归神经网络语法确实学习了一些关于自然语言语法的知识,并且他们所学的对应于脑电图中表现的人类语言处理难度的指标。这种计算模型与人体电生理反应之间的对应关系源于缺乏纯基于字符串处理的初始阶段的系统。以前的工作是“两阶段”的意义,即生成模型用于从条件模型重新排列建议。如果这个单阶段模型在认知上是合理的,那么它的简单性就削弱了基于字符串的感知策略的论据,比如名词-动词-名词启发式。也许,正如菲利普斯所言,这些在适当的认知模型中是不必要的。当然,现在对于在人类句子处理机制内对单个解析操作的顺序和时间进行更细粒度的调查是开放的。
转载请注明地址:http://www.abmjc.com/zcmbjc/3932.html