《预训练周刊》第17期：深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...

No.17智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第17期《预训练周刊》...

智源社区

657人浏览 · 2021-07-22 18:35:34

智源社区 · 2021-07-22 18:35:34 发布

No.17

智源社区

预训练组

预

训

练

研究

观点

资源

活动

关于周刊

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第17期《预训练周刊》，从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。

本期周刊，我们选择了10篇预训练相关的论文，涉及视觉变换器、视觉对抗网络、乐谱生成、模型测评、文本生成、文本处理、视频生成、血糖预测、文本图像模型和少样本预测的探索。此外，在研究动态方面，我们选择了7篇预训练资讯，将介绍故事写作、视觉研究回顾、大语言模型、长序列预测、代码生成、超大语言模型和阅读理解模型等方面的一些最新内容。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动预训练学习社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。

（本期贡献者：申德周翟珂吴新刚）

论文推荐

标题：华为、悉尼大学｜CMT: Convolutional Neural Networks Meet Vision Transformers（CMT：卷积神经网络相遇视觉变换器）了解详情

简介：我们旨在解决变换器的性能和计算成本这个问题并开发一个不仅可以超越规范的网络变换器，还有高性能的卷积模型。我们提出一种新的基于变换器的混合网络，利用变换器捕获远程依赖关系，并使用CNN对局部特征进行建模。此外，我们对其进行缩放以获得一系列模型，称为CMT，获得了很多比以前基于卷积和变换器的精度和效率更高的效果。特别是，我们的CMT-S在ImageNet上达到了83.5%的top-1准确率，虽然在FLOPs上比现有的DeiT和EfficientNet小14倍和2倍。提出的CMT-S在CIFAR10(99.2%) 、CIFAR100(91.7%)、Flowers(98.7%) 和其他具有挑战性的视觉数据集上也有效，例如在COCO(44.3%mAP)，计算成本要低得多。

论文地址：https://arxiv.org/pdf/2107.06263v1.pdf

标题：加州大学、谷歌｜ViTGAN: Training GANs with Vision Transformers（ViTGAN：使用视觉变换器训练生成对抗网络）

了解详情

简介：最近，视觉变换器(ViTs)在图像识别显示出潜力，同时需要较少的视觉特定归纳偏差。在论文中，我们研究了这种观察是否可以扩展到图像生成。至此，我们将ViT架构集成到生成对抗网络中。我们观察到现有的GAN正则化方法与自注意力交互不佳，在训练过程中造成严重的不稳定。为了解决这个问题，我们介绍了使用ViT训练GAN的新颖正则化技术。在CIFAR-10、CelebA和LSUN卧室数据集上，我们的ViTGAN的方法实现了性能可媲美最先进的基于CNN的StyleGAN2。

论文地址：https://arxiv.org/pdf/2107.04589v1.pdf

标题：索尼|THE PIANO INPAINTING APPLICATION（钢琴补谱应用）了解详情

简介：自回归模型现在能够生成高质量的一分钟长的表现力MIDI钢琴表演。我们提出了钢琴补谱应用程序（PIA），一个专注于“修复”的钢琴演奏生成模型，因为我们认为这个基本操作（恢复钢琴缺失的部分表演）鼓励人机互动，并开辟了处理音乐作品的新方法。我们的方法依赖于经过训练的编码器-解码器线性变换器架构MIDI钢琴演奏的新颖表示，称为结构化MIDI编码。通过揭开线性变压器和我们的修复任务之间有趣的协同作用，我们能够有效地修复钢琴演奏的连续区域，这使我们的模型适合交互式和响应式人工智能辅助合成。

论文地址：https://arxiv.org/pdf/2107.05944v1.pdf

标题：谷歌|The Benchmark Lottery（测评彩票）了解详情

简介：机器学习的世界强烈依赖于以确定不同算法和方法的相对有效性。本文提出了一个测评彩票的概念，它描述了整体机器学习基准测试过程的脆弱性。基准彩票假设除了基本的算法优势外，许多因素可能会导致一种方法被认为是优越的。在多个基准设置中普遍存在在机器学习社区，我们表明算法的相对性能可能是只需选择不同的基准任务，突出显示当前范式的脆弱性和潜在的错误解释来自对机器学习方法的基准测试。鉴于每个基准都会对它认为重要的事情做出声明，我们认为这可能会导致偏见社区的进步。

论文地址：https://arxiv.org/pdf/2107.07002v1.pdf

标题：艾伦研究院、华盛顿大学|Tailor: Generating and Perturbing Text with Semantic Controls（Tailor：使用语义控制生成和扰动文本）了解详情

简介：我们提出了裁剪器，一个基于语义控制的任务无关的干扰文本生成系统。与训练不同，我们设计了裁剪生成器，以遵循一系列从语义角色中提取的控制代码。通过修改这些控制代码，裁剪器可以产生细粒纹扰动。我们在控制代码上实施一组操作可组成复杂的扰动策略，并在三个不同的应用中展示其有效性：第一，裁剪器促进高质量构建对比集是词汇多样化。其次，裁剪器与自动标签启发式产品搭配，通过数据增强帮助改进模型的推广。第三，在没有任何微调开销的情况下，裁剪器的扰动有效地提高了细粒度风格迁移效果。

代码下载：https://github.com/allenai/tailor

论文地址：https://arxiv.org/pdf/2107.07150v1.pdf

标题：谷歌｜Deduplicating Training Data Makes Language Models Better（去重训练数据使语言模型更好）了解详情

简介：我们发现现有的语言建模数据集包含许多几乎重复的示例和长重复的子字符串。作为结果，超过 1% 的语言模型在这些语言模型上的自发输出数据集是从训练数据中逐字复制的。我们开发了两个工具，允许我们对训练数据集进行重复数据删除——例如从 C4 中删除一个重复超过60,000次的61个单词的英语句子。重复数据删除使我们可以训练模型发出的记忆文本少十倍经常并且需要更少的训练步骤来达到相同或更好的精度。我们还可以减少训练测试重叠，这会影响超过4%的标准数据集验证集，从而允许更准确评估。

代码下载：https://github.com/google-research/deduplicate-text-datasets

论文地址：https://arxiv.org/pdf/2107.06499v1.pdf

标题：马普所 | StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN（StyleVideoGAN：使用预训练的StyleGAN的时序生成模型）了解详情

简介：本文提出了一种解决视频合成问题的新方法，它极大地提高了视觉生成质量，并大幅减少了生成视频所需的训练数据和资源。作者将空间域与时间域分开，在空间域中单个帧被合成，在时间域中运动被生成。对于空间域，本文使用预训练StyleGAN网络，其隐空间学习所训练的对象的外观，而预训练模型的表征能力和容量使训练视频可以被嵌入到StyleGAN的隐空间中。对于时间域，其不是在RGB帧的序列上训练，而是在StyleGAN隐空间的序列上训练。训练之后，模型不仅可以为训练对象生成新的肖像视频，还可以为任何可以嵌入StyleGAN空间的随机对象生成新的肖像视频。

论文地址：https://arxiv.org/abs/2107.07224v1

标题：布朗大学、宾大、哈佛 | Deep transfer learning and data augmentation improve glucose levels prediction in type 2 diabetes patients（深度迁移学习与数据增强改善2型糖尿病患者的血糖水平预测）了解详情

简介：准确预测2型糖尿病的血糖变化将有助于更好地控制血糖。该场景的难点在于病人的数据集通常太小，以及由于低血糖和高血糖的发作通常比正常血糖少得多导致的数据集高度不平衡。本文分别使用迁移学习和数据增强来解决这两个挑战，作者系统地研究了三种神经网络结构、不同的损失函数、四种预训练迁移学习策略和四种包括混合和生成模型在内的数据增强技术。利用这些方法，本文在临床上有用的1小时预测中取得了超过95%的预测准确率和90%的灵敏度，这将使病人能够对低血糖和高血糖作出反应和纠正。本文还证明，同样的网络结构和迁移学习方法在1型糖尿病OhioT1DM公共数据集上表现良好。

论文地址：https://www.nature.com/articles/s41746-021-00480-x

标题：UC伯克利、北卡教堂山 | How Much Can CLIP Benefit Vision-and-Language Tasks?（CLIP对视觉和语言任务的益处有多大？）了解详情

简介：大多数现有的视觉语言模型都依赖于预训练的视觉编码器来感知视觉世界。然而大规模的预训练通常可以带来更好的泛化性能，例如CLIP（对比学习语言-图像预训练）在大量的图像-字幕对上进行预训练，可以在各种视觉任务上显示出强大的零样本预测能力。本文在两个典型的场景中使用CLIP作为视觉编码器，即将CLIP插入到特定任务的微调中以及将CLIP与视觉语言预训练相结合，并迁移到下游任务中。本文表明CLIP优于广泛使用的、用领域内注释数据训练的视觉编码器，并在不同的视觉语言任务上取得了优秀的结果。

论文地址：https://arxiv.org/pdf/2107.06383v1.pdf

标题：艾伦人工智能研究院 | FLEX: Unifying Evaluation for Few-Shot NLP（FLEX: 统一评估小样本自然语言处理）

了解详情

简介：本文提出了理想的小样本NLP基准的要求，并提出了FLEX，第一个为小样本NLP提供统一、全面测量的基准和公共排行榜。FLEX引入了新的小样本评估方法，包括对四种预训练迁移设置的度量，零样本评估的标签等。此外本文提出了UniFew，一个简单而强大的基于提示的小样本学习模型，它统一了预训练和微调提示格式，回避了基于提示的方法在适应下游任务格式和语言模型预训练目标时的复杂机制。本文证明，尽管UniFew很简单，但它取得了与元学习和基于提示的方法相比具有竞争力的结果。

论文地址：https://arxiv.org/pdf/2107.07170v1.pdf

研究动态

标题：谷歌|Wordcraft: a Human-AI Collaborative Editor for Story Writing （Wordcraft：用于故事写作的人机协作编辑器）

了解详情

简介：我们提出Wordcraft，一个人工智能辅助编辑器用于故事写作，其中作家和对话系统合作编写故事。我们的新颖的界面使用小样本学习和支持对话的自然启示各种互动。我们的编辑器提供了一个供作家探索边界的沙箱基于变换器的语言模型，和提供未来人为交互训练的方式流水线和新的评估方法。

论文地址：https://arxiv.org/pdf/2107.07430v1.pdf

标题：约克大学｜Industry and Academic Research in Computer Vision（计算机视觉行业和学术研究）了解详情

简介：这项工作旨在研究计算机视觉行业和学术界研究之间的动态。结果证明在一组代表全球的前5名视觉领域会议。由于此类分析的数据不易获得，因此花费了大量精力来收集和处理来自原始出版物。首先，这项研究量化了行业赞助研究的份额。具体来说，它表明发表论文的比例与行业相关的研究人员越来越多，越来越多的学者加入公司或与他们合作。接下来，可能的进一步探讨了行业存在的影响，即研究主题和引用模式的分布。结果表明研究课题的分布在行业和学术论文。但是，有强烈的偏好引用行业论文。最后，对引文偏倚的可能原因，例如代码可用性和影响，进行了调查。

论文地址：https://arxiv.org/pdf/2107.04902v1.pdf

标题：480块GPU跑出万亿参数，阿里推“低碳版”AI大模型，能耗降8成

了解详情

简介：大模型研究的一大技术挑战是，模型扩展到千亿及以上参数规模时，将很难放在一台机器上。达摩院联合阿里云等团队，改进了Mixture-of-Experts框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。达摩院团队仅用480卡英伟达V100 GPU，就训练出了规模达人类神经元10倍的万亿参数多模态大模型M6，让耗降低超8成、效率提升近11倍。

论文地址：https://arxiv.org/pdf/2103.00823.pdf

标题：革新Transformer！清华大学提出全新Autoformer骨干网络，长时序预测达到SOTA了解详情

简介：尽可能延长预测时效是时序预测的核心难题，对于能源、交通、气象灾害及疾病的早期预警等具有重要意义。虽然近期基于Transformer的模型在时序预测上取得了一系列进展，但是Transformer的固有设计，使得在应对长期序列时仍存在不足：随着预测时效的延长，直接使用自注意力机制难以从复杂时间模式中找到可靠的时序依赖。清华大学的研究人员近日发表论文，探究了在信息有限的情况下预测更长期未来的这个难题。针对上述问题，作者大刀阔斧革新Transformer，提出全新的Autoformer模型，包括深度分解架构及全新自相关机制，在长时序预测方面达到SOTA:长序预测性能平均提升38%，在效率性能上均超过Transformer及其变体。

论文地址：https://arxiv.org/abs/2106.13008

标题：计算机行业越来越卷，AI都会刷LeetCode了，网友：比我强了解详情

简介：随着深度学习的兴起，AI 让许多行业实现了自动化，包括将 AI 用于编程。此外，准确地评估模型的代码生成性能可能是很困难的，并且很少有既灵活又严格的方式来评估代码生成的研究。UC伯克利等机构的研究者对此提出了APPS（Automated Programming Progress Standard）代码生成基准，该基准测试能衡量模型的代码生成能力，并检查代码是否符合问题要求。与公司评估候选软件开发人员的方式类似，该研究通过检查生成的代码在测试用例上的结果来评估模型。基准测试包括10000个问题，包含单行代码解决的简单问题和具有大量代码的复杂算法挑战等多种问题。上述 AI 生成代码示例在APPS数据集中被视为「面试级别」的问题。

论文地址：https://arxiv.org/pdf/2105.09938.pdf

标题：2021WAIC的镇馆之宝“盘古大模型”：让AI抛弃“小作坊”、拥抱“工业化”了解详情

简介： AI应用开发是碎片化、定制化的，场景稍有变化就要重新进行数据处理，海量参数调优，反复迭代。如果模型达不到期望的目标，还要把这个过程推倒重来，模型开发周期动辄一个月，甚至数月。上述这种耗费大量人工的方式说明AI开发还处于作坊模式中。在2021WAIC期间，历经100多个场景成功验证的华为云盘古预训练大模型：被评选为大会的“镇馆之宝”。华为轮值董事长胡厚崑在在2021WAIC开幕式演讲中对盘古大模型的说明：如何为AI带来了工业化开发新模式。

标题：四两拨千斤！AI大牛周明率澜舟团队刷新CLUE新纪录，轻量化模型孟子一鸣惊人了解详情

简介：近日，澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发的中文语言模型—孟子轻量型模型，超越腾讯、搜狗等公司，在中文语言理解评测 CLUE 榜单上登顶第一，刷新业界记录。相对已有的中文语言模型，具备顶尖语言理解能力的孟子模型实现了多项突破性进展，在权威 CLUE 中文理解评测的总排行榜，以及分类排行榜和阅读理解排行榜均位列第一，刷新三项榜单世界纪录。