《预训练周刊》第45期：冻结语言模型、提示迁移性、快速文档排序

No.45智源社区预训练组预训练研究观点资源活动周刊订阅告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。关于周刊本期周刊，我们选择了12篇预训...

智源社区

354人浏览 · 2022-05-07 12:00:00

智源社区 · 2022-05-07 12:00:00 发布

No.45

智源社区

预训练组

预

训

练

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息，《预训练周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《预训练周刊》。订阅方法：

方式1：扫描下面二维码，进入《预训练周刊》主页，选择“关注TA”。

方式2：点击本文下方的“阅读原文”，进入《预训练周刊》Hub社区版，根据内附的详细订阅步骤，完成订阅。

关于周刊

本期周刊，我们选择了12篇预训练相关的论文，涉及冻结语言模型、长文档分类、对话生成、提示迁移性、快速文档排序、代码生成、文档理解、主动学习、蛋白设计、图像识别、抗体生成和分子理解的探索。此外，在研究动态方面，我们选择了3篇预训练资讯，将介绍NLP范式、检索零样本和图像生成方面的一些最新内容。在资源推荐方面，我们选择了1篇预训练资源，将介绍变换器深度研究方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：AI21实验室|STANDING ON THE SHOULDERS OF GIANT FROZEN LANGUAGE MODELS（站在冻结语言模型巨人的肩膀上）了解详情

作者：Yoav Levine, Itay Dalmedigos, Yoav Shoham等

简介：本文提出了一种利用冻结语言模型方法。巨大的预训练语言模型 (LM) 在各种任务中展示了令人惊讶的出色零样本能力。这就产生了一个单一的、多功能模型的吸引人的愿景，该模型在不同的应用程序中具有广泛的功能。然而，当前利用“冻结”LM 的领先技术——即保持其权重不变——仍然常常不如以任务相关方式修改这些权重的微调方法。反过来，这些会健忘并损害多功能性，这表明在性能和多功能性之间进行权衡。当前的冻结模型技术（例如快速调整）只是冰山一角，利用冻结 LM 的更强大方法可以在具有挑战性的领域中进行微调，而不会牺牲底层模型的多功能性。为了证明这一点，作者介绍了三种利用冻结模型的新方法，每种方法都大大改进了当前的冻结模型方法。每种方法的计算成本都高于现有的冻结模型方法，但相对于单次通过一个巨大的冻结 LM 仍然可以忽略不计。作者认为冻结模型具有未开发的潜力和微调通常是不必要的。

论文下载：https://arxiv.org/pdf/2204.10019

标题：CSIRO、哥本哈根大学|Revisiting Transformer-based Models for Long Document Classification（重新审视基于变换器的长文档分类模型）了解详情

作者：Xiang Dai, Ilias Chalkidis, Desmond Elliott等

简介：本文研究了一种长文本分类算法。最近的文本分类文献偏向于短文本序列（例如，句子或段落）。在现实世界的应用程序中，多页多段落文档很常见，它们不能被基于变换器的普通模型有效地编码。作者比较了不同的基于变换器的长文档分类 (TrLDC) 方法，这些方法旨在减轻朴素变换器对更长文本进行编码的计算开销，即稀疏注意力和分层编码方法。作者在涵盖不同领域的四个文档分类数据集上检查了稀疏注意力的多个方面（例如，局部注意力窗口的大小、全局注意力的使用）和分层（例如，文档拆分策略）变换器。作者观察到能够处理更长的文本有明显的益处，并且根据结果，得出了将基于变换器的模型应用于长文档分类任务的实用建议。

论文地址：https://arxiv.org/pdf/2204.06683v1.pdf

标题：复旦、微软、南理工|DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation（DialogVED：一种预训练的对话响应生成潜在变量编解码模型）了解详情

作者：Wei Chen, Yeyun Gong, Nan Duan等

简介：本文介绍了一种对话预训练模型。开放域中的对话响应生成是一个重要的研究课题，其主要挑战是生成相关且多样化的响应。在本文中，作者提出了一种名为 DialogVED 的新对话预训练框架，它将连续潜在变量引入增强的编码器-解码器预训练框架中，以增加响应的相关性和多样性。在大型对话语料库 (Reddit) 的帮助下，作者使用以下 4 个任务对模型进行预训练，用于训练语言模型 (LM) 和变分自动编码器 (VAE) 文献：1) 掩码语言模型；2) 响应生成；3）词袋预测；4）KL散度减少。作者还添加了额外的参数来对转弯结构进行建模，以提高预训练模型的性能。作者在 PersonaChat、DailyDialog 和 DSTC7-AVSD 基准上进行实验以生成响应。实验结果表明，作者的模型在所有这些数据集上实现了新的最先进的结果。

论文下载：https://arxiv.org/pdf/2204.13031v1.pdf

标题：清华、腾讯|On Transferability of Prompt Tuning for Natural Language Processing（论自然语言处理的提示调优的可迁移性）了解详情

作者：Yusheng Su, Xiaozhi Wang, Maosong Sun, Jie Zhou等

简介：本文研究了提示调优的迁移性。提示调优 (PT) 是一种很有前途的参数高效方法，可以利用超大型预训练语言模型 (PLM)，只需调整一些软提示即可实现与全参数微调相当的性能。然而，与微调相比，PT 需要更多的训练时间。直观地说，知识转移有助于提高效率。为了探索作者是否可以通过提示转移来提高 PT，作者在这项工作中实证研究了软提示在不同下游任务和 PLM 之间的可转移性。作者发现（1）在零样本设置中，训练有素的软提示可以有效地转移到同一 PLM 上的类似任务，也可以转移到其他 PLM 上，并使用针对类似任务进行训练的跨模型投影仪；(2) 当用作初始化时，类似任务的训练软提示和其他 PLM 的投影提示可以显着加速训练，也可以提高 PT 的性能。作者的研究结果表明，提示转移有望改善 PT，进一步的研究应更多地关注提示对 PLM 的刺激。

代码下载：https://github.com/thunlp/Prompt-Transferability

论文下载：https://arxiv.org/pdf/2111.06719v2.pdf

标题：Google | ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference（编码器-解码器到语言模型，用于更快的文档重新排序推断）了解详情

作者：Kai Hui, Honglei Zhuang, Tao Chen,等

简介：本文研究预训练模型排序的效能优化。最先进的神经模型通常使用交叉注意力对文档-查询对进行编码、以进行重新排序。为此，模型通常使用仅编码器（如 BERT）范例或编码器-解码器（如 T5）方法。然而，这些范例并非没有缺陷，即在推理时在所有查询-文档对上运行模型会产生巨大的计算成本。本文提出了一种用于重新排序的新训练和推理范式。作者建议使用文档形式对预训练的编码器-解码器模型进行微调以生成查询。随后，作者展示了这种编码器-解码器架构可以在推理过程中分解为仅解码器的语言模型。这导致显著的推理时间加速，因为仅解码器架构只需要在推理过程中学习解释静态编码器嵌入。作者的实验表明，这种新范式取得了与更昂贵的交叉注意力排名方法相当的结果，同时速度提高了 6.8 倍。作者相信这项工作为利用大型预训练模型的更高效的神经排序器铺平了道路。

论文下载：https://arxiv.org/pdf/2204.11458

标题：Facebook 、芝加哥大学、卡耐基梅隆大学 | Natural Language to Code Translation with Execution(自然语言到代码转化的执行)了解详情

作者：Freda Shi, Daniel Fried, Marjan Ghazvininejad,等

简介：本文研究预训练代码模型中程序语义议题。在大型程序语料库上预训练的代码生成模型在将自然语言转换为代码方面取得了巨大成功。虽然这些模型在训练期间没有明确地结合程序语义（即执行结果），但它们能够为许多问题生成正确的解决方案。然而，从每个问题的生成集中选择一个正确的程序仍然具有挑战性。在这项工作中，作者引入了基于执行结果的最小贝叶斯风险解码 (MBR-EXEC) 用于程序选择，并表明它提高了预训练代码模型在自然语言到代码任务上的小样本性能；跨数据集、执行或模拟执行：都明显优于不涉及程序语义的方法。作者发现 MBR-EXEC 比所有不知道如何执行的选择方法都有持续的改进，实验表明 MBR-EXEC是一种有效的自然语言代码转换方法。

论文下载：https://arxiv.org/pdf/2204.11454

标题：Adobe公司 | Unified Pretraining Framework for Document Understanding（文档理解的统一预训练框架）了解详情

作者：Jiuxiang Gu, Jason Kuen, Vlad I. Morariu,等

简介：本文研究在文档预训练任务中增加文档理解与多模态等方法。文档智能自动从文档中提取信息并支持许多业务应用程序。最近在大规模未标记文档数据集上的自监督学习方法，为通过训练具有自监督目标的模型来减少注释工作、开辟了有希望的方向。然而，大多数现有的文档预训练方法仍然以语言为主。作者提出了 UDoc：一个用于文档理解的新的统一预训练框架。UDoc 旨在支持大多数文档理解任务，扩展 Transformer 以将多模态嵌入作为输入。每个输入元素由来自输入文档图像的语义区域的单词和视觉特征组成。UDoc 的一个重要特征是通过利用三个自监督损失来学习通用表示，鼓励表示来建模句子，学习相似性并调整模态。广泛的实证分析表明：其预训练过程学习了更好的联合表示、并导致下游任务的改进。

论文下载：https://arxiv.org/pdf/2204.10939

标题：斯坦福大学 | Active Learning Helps Pretrained Models Learn the Intended Task(主动学习帮助预训练模型学习预期任务)了解详情

作者：Alex Tamkin , Dat Nguyen , Salil Deshpande ,等

简介：本文研究主动学习对预训练模型的效能提升。当多种行为与提供的训练数据一致时，由于任务模糊性，模型可能会在部署过程中以不可预知的方式失败。一个例子是在红色方块和蓝色圆圈上训练的对象分类器：当遇到蓝色方块时，预期的行为是未定义的。作者调查预训练模型是否是更好的主动学习者、能否消除用户可能试图指定的可能任务之间的歧义。有趣的是，作者发现更好的主动学习是预训练过程的一个新兴属性：当使用基于不确定性的主动学习时，预训练模型需要的标签最多减少 5 倍，而非预训练模型看不到甚至是负向增益。作者发现这些收益来自于选择具有消除预期行为歧义属性的示例的能力，例如稀有产品类别或非典型背景。与非预训练模型相比，这些属性在预训练模型的表示空间中更容易线性分离，这表明了这种行为的可能机制。

论文下载：https://arxiv.org/pdf/2204.08491

标题：西湖大学 | Generative De Novo Protein Design with Global Context（基于全局信息的生成式蛋白设计）了解详情

作者：Cheng Tan, Stan Z. Li等

简介：本文研究蛋白图生成预训练。最近关于计算蛋白质设计的工作研究了用局部位置信息为所需的骨架结构设计序列，并取得了有竞争力的性能。然而，不同骨架结构中类似的局部环境可能导致不同的氨基酸，这表明蛋白质结构的全局环境很重要。因此，本文提出了由局部和全局模块组成的全局背景感知生成式从头蛋白质设计方法GCA，一种带有注意力机制的图神经网络。局部模块侧重于相邻氨基酸之间的关系，而全局模块则明确地捕捉非局部背景。数据及评价方面包括三部分，CATH 4.2、AlphaFold DB中收集人类的蛋白质数据集和较小的数据集TS50。实验结果表明，所提出的GCA方法在从头开始的蛋白质设计方面优于先进的方法。

论文下载：https://arxiv.org/pdf/2204.10673v1.pdf

标题：Scientific Reports | Deep learning-enabled mobile application for efficient and robust herb image recognition（高效和鲁棒的草药图像识别的深度学习移动应用）了解详情

作者：Xin Sun, Feng Yang等

简介：本文研究中药图像预训练。随着中草药的日益普及，对中草药的高标准质量控制成为必要工作，而中草药的识别是其中一个巨大的挑战。本文介绍了一个基于图像预训练的移动应用程序，它可以在普通的低成本智能手机上完整运行，用于高效和鲁棒的草药图像识别，它在资源有限的情况下具有相当高的识别精度。该算法包含三个主要步骤，即网络预训练、网络迁移和网络切割。本文采用ImageNet数据集作为大规模的数据集，并对模型进行预训练，然后在herb图像数据集上进一步训练。本文的目标是通过构建一个合格的草药工具助手来减轻对专家资源的需求，可以做出决策来加速人工过程。本文相信这项研究可以促进世界范围内的草药理解普及，并可能促进有价值的草药数据的收集。

论文下载：https://www.nature.com/articles/s41598-022-10449-9

标题：约翰霍普金斯 | Fast, accurate antibody structure prediction from deep learning on massive set of natural antibodies（通过深度学习对大量天然抗体进行快速、准确的抗体结构预测）了解详情

作者：Jeffrey A. Ruffolo, Jeffrey J. Gray等

简介：本文研究预训练模型在抗体结构预测上的应用。本文介绍了一种和可与AlphaFold2准确率媲美的更快的抗体结构预测工具IgFold。它先从一个预训练的语言模型提取预序列表征，该模型在558M自然抗体序列上进行的训练，然后通过图网络直接预测骨架原子坐标。为了证明IgFold的能力，作者预测了105K配对的8个抗体序列的结构，将观察到的抗体结构空间扩大了40倍以上。IgFold达到了AlphaFold-Multimer模型的精度用于成对的抗体结构预测，并接近了纳米抗体的AlphaFold的结果。它显著快于AlphaFold，能在1分钟内预测结构。在很多靶点上，该方法能够产生不同的构象。它对已有抗体抗原对接任务也有较大的帮助，对现有对接方法，IgFold在速度和准确率上会有较大的改善，且估计有助于指导增强采样。

论文下载：https://doi.org/10.1101/2022.04.20.488972

标题：伊利诺伊香槟、谷歌 | Translation between Molecules and Natural Language（分子与自然语言之间的翻译）了解详情

作者：Carl Edwards, Heng Ji等

简介：本文研究自然语言与分子语言跨模态预训练。作者提出了MolT5，一个自监督的学习框架，用于对大量未标记的自然语言文本和分子字符串进行预训练。MolT5允许对传统的视觉语言任务进行新的和具有挑战性的模拟，如分子说明和基于文本的新分子生成，即分子和语言之间的翻译。本文考虑了多个指标，包括一个新的基于跨模态嵌入的指标，以评估分子描述和基于文本的分子生成任务。通过将分子与自然语言相连接，本文能够对分子的发现和理解进行更高层次的语义控制，这是药物发现和材料设计等科学领域的关键任务。本文的研究结果表明，基于MolT5的模型能够生成分子和文本，在许多情况下，这些输出都是高质量的，并且与输入模式相匹配。在分子生成方面，本文最好的模型达到了30%的精确匹配测试精度，为本文保持的测试集中大约三分之一的描述生成了正确的结构。

论文下载：https://arxiv.org/pdf/2204.11817v2.pdf

研究动态

标题：Paradigm Shift in Natural Language Processing（NLP的范式转变）了解详情

作者：Tianxiang Sun, Xiangyang Liu, Xipeng Qiu,等

简介：在深度学习时代，大多数 NLP 任务的建模已经收敛到几种主流范式。例如，研究者通常采用序列标注范式来解决诸如 POS-tagging、NER、Chunking 等一组子任务，而采用分类范式来解决诸如情感分析之类的任务。随着预训练语言模型的快速发展，近年来出现了范式转变的上升趋势，即通过将一个 NLP 任务重新构建为另一个 NLP 任务来解决它。范式转变在许多任务上都取得了巨大的成功，成为提高模型性能的一种很有前途的方法。此外，其中一些范式已显示出统一大量 NLP 任务的巨大潜力，使得构建单一模型来处理不同任务成为可能。在本文中，作者回顾了近年来这种范式转变现象，重点介绍了多种有可能解决不同 NLP 任务的范式。详情请参阅原文。

论文下载：https://arxiv.org/abs/2109.12575

资料下载：https://txsun1997.github.io/slides/nlp-paradigm-shift.pdf

标题：稠密检索模型的zero-shot能力究竟如何？了解详情

简介：随着预训练语言模型在自然语言处理领域的蓬勃发展，基于预训练语言模型的稠密检索近年来也变成了主流的一阶段检索技术。现有的一些研究指出，稠密检索模型的零样本能力非常有限。本文针对零样本场景下的稠密检索模型泛化能力进行了较为深入的研究，旨在理解何种因素影响了稠密检索模型的zero-shot泛化能力，以及如何改善这些因素从而提升模型的zero-shot泛化能力。为此，作者设计了充分的实验，从源域query分布、源域document分布、数据规模、目标域分布偏移程度等多个方面进行了全面的分析，并发现了不同因素对模型zero-shot泛化能力的影响。另外，作者还系统梳理了近期出现的多种提升zero-shot泛化性能的优化策略，并指出每种策略是如何影响上述多个因素从而实现改进的。

论文下载：https://arxiv.org/pdf/2204.12755.pdf

标题：DALL-E 2的PyTorch源实现了解详情

简介：在 Pytorch 中实现 OpenAI 更新的文本到图像合成神经网络 DALL-E 2。主要的新颖之处似乎是与先前网络（无论是自回归变换器还是扩散网络）的额外间接层，它根据来自 CLIP 的文本嵌入来预测图像嵌入。具体来说，只构建扩散先验网络，因为它是性能最好的变体，这个模型目前是文本到图像的 SOTA。

代码下载：https://github.com/lucidrains/DALLE2-pytorch

资源推荐

标题：《Transformers 机器学习:深度探究》了解详情

简介：Transformers 正在成为许多神经网络架构的核心部分，被广泛应用于诸如NLP、语音识别、时间序列和计算机视觉等领域。Transformers 经历了许多改编和改造，从而产生了新的技术和方法。《Transformers 机器学习:深度探究》是第一本全面介绍Transformers的书。