预训练模型1:XLNet

Google的最新模型XLNet在主要的NLP任务(例如文本分类,情感分析,问题回答和自然语言推断)上获得了最先进的(SOTA)性能,以及基本的GLUE英语基准。它的表现优于BERT,现在已经成为不仅可以击败文本分类而且可以胜任高级NLP任务的典范。

XLNet的核心思想是:

  1. 用于语言理解的广义自回归预训练
  2. 变形金刚
c78d6b5b53546650e976b3a36cef4b11.png

如果这听起来很复杂,请不要担心!我将其分解为简单的文字。

自回归建模用于使用在所讨论的丢失单词之前或之后出现的上下文单词来预测下一个单词。但是,我们不能同时处理正向和反向。

尽管BERT的自动编码器确实照顾到了这一方面,但它确实还有其他缺点,例如假设被屏蔽的单词之间没有相关性。为了解决这个问题,XLNet 在预训练阶段提出了一种名为置换语言建模的技术。该技术使用置换同时从前向和后向生成信息。

变形金刚架构已成为游戏规则改变者,这已不是什么秘密。XLNet使用Transformer XL。众所周知,在允许不相邻令牌也一起处理的意义上,变压器是递归神经网络(RNN)的替代方案。这样可以更好地理解文本中的远距离关系。Transformer-XL基本上是BERT中使用的变压器的增强版本,它增加了两个组件:

  1. 在特定段重复出现,从而给出2个序列之间的上下文
  2. 相对位置嵌入,其中包含有关两个标记之间相似性的信息

正如我之前提到的,XLNet在几乎所有任务(包括文本分类)上均胜过BERT,并在其中18个任务上实现了SOTA性能!

这是“文本分类”任务的摘要,以及XLNet在这些不同的数据集上的表现以及在这些数据集上所获得的很高的评价:

41dba2c19d607f1554fe49adc9c6a1e9.png

预先训练的模型2:用于文本分类的神经注意实体袋模型(NABoE)

神经网络一直是NLP任务最流行的模型,并且其性能优于更传统的模型。此外,在从语料库建立知识库的同时用单词替换实体可以改善模型学习。

这意味着,我们不是使用语料库中的单词来构建词汇表,而是使用实体链接来构建一个实体。尽管已经有人对该模型表示语料库的方法进行了研究,但NABoE模型通过以下方式进一步向前发展:

  1. 使用神经网络检测实体
  2. 使用注意力机制来计算检测到的实体的权重(这决定了实体与所讨论文档的相关性)
f25a7bcd1b7012c5ad871c810d42a8d7.png

神经实体包模型使用Wikipedia语料库来检测带有单词的关联实体。例如,“苹果”一词可以指水果,公司和其他可能的实体。一旦检索到所有这些实体,就使用基于softmax的注意力函数计算每个实体的权重。这给出了仅与该特定文档相关的较小实体子集。

最后,该单词的最终表示是通过其矢量化嵌入与与该单词关联的相关实体的矢量化嵌入相结合给出的。

NABoE模型在“文本分类”任务上表现特别出色:

9cff649ae6482f63045afaefc0a89af2.png
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐