Abstract

Proteins are essential to life, and understanding their structure can facilitate a mechanistic understanding of their function. Through an enormous experimental effort1–4 , the structures of around 100,000 unique proteins have been determined5 , but this represents a small fraction of the billions of known protein sequences6,7 . Structural coverage is bottlenecked by the months to years of painstaking effort required to determine a single protein structure. Accurate computational approaches are needed to address this gap and to enable large-scale structural bioinformatics. Predicting the three-dimensional structure that a protein will adopt based solely on its amino acid sequence—the structure prediction component of the ‘protein folding problem’8 —has been an important open research problem for more than 50 years9 . Despite recent progress10–14, existing methods fall far short of atomic accuracy, especially when no homologous structure is available. Here we provide the first computational method that can regularly predict protein structures with atomic accuracy even in cases in which no similar structure is known. We validated an entirely redesigned version of our neural network-based model, AlphaFold, in the challenging 14th Critical Assessment of protein Structure Prediction (CASP14)15, demonstrating accuracy competitive with experimental structures in a majority of cases and greatly outperforming other methods. Underpinning the latest version of AlphaFold is a novel machine learning approach that incorporates physical and biological knowledge about protein structure, leveraging multi-sequence alignments, into the design of the deep learning algorithm.

翻译:

蛋白质对生命至关重要,理解其结构可以促进对其功能的机制性理解。通过巨大的实验努力,已确定了约10万种独特蛋白质的结构,但这仅占已知蛋白质序列数十亿中的一小部分。结构覆盖受到确定单个蛋白质结构所需的数月到数年的辛苦努力的限制。需要准确的计算方法来解决这一问题,并实现大规模的结构生物信息学。根据其氨基酸序列单独预测蛋白质将采用的三维结构——即“蛋白质折叠问题”的结构预测组件——已经是一个重要的开放性研究问题超过50年。尽管最近取得了进展,但现有方法在没有同源结构可用时远远不及原子精度。在这里,我们提供了第一个可以定期预测即使在没有类似结构的情况下也具有原子精度的蛋白质结构的计算方法。我们在具有挑战性的第14次蛋白质结构预测评估(CASP14)中验证了我们完全重新设计的基于神经网络的模型AlphaFold,证明在大多数情况下与实验结构具有竞争力的准确性,并且远远优于其他方法。支撑AlphaFold最新版本的是一种新颖的机器学习方法,它结合了有关蛋白质结构的物理和生物学知识,利用多序列比对,将这些知识纳入到深度学习算法的设计中。

总结:

蛋白质是氨基酸序列,长串的序列会卷在一起,氨基酸之间相互吸引形成稳定的、独特的3D结构,3D结构的形状决定了蛋白质的功能

目的:给氨基酸序列,预测3D结构

Alphafold1的结果不够精确,偏差不在一个原子大小的级别之内,而2达到了原子级别的精度

Introduction

a图:Alphafold2的预测位置误差在1A(10^-10)左右,C原子的大小大概是1.5A

bcd图:绿色是实验室做出的结果,蓝色是Alphafold2预测的结果

在PDB数据集(包含所有已知蛋白质结构)上进行预测

a图:x轴是预测的误差,y轴是在这个误差内的蛋白质的比例

Approach

结构总览

feature extract

 (1)序列进来直接输入网络

(2)去一个基因数据库里面搜一搜,看看有没有相似的蛋白质序列,拿出来与直接输入的序列形成一个MSA(多序列的比对) ,类似一段字符串的匹配,如第四列的紫色箭头全都对应上

(3)pairing捕捉氨基酸两两之间的关系,最希望捕捉到的是3D结构中氨基酸对之间的距离

(4)去结构数据库里面搜一搜,可以找到一些氨基酸序列对应的蛋白质结构信息,就可以知道真实的氨基酸对在空间中的距离是什么样子,得到很多的模板

总结来说就是得到两大类特征,一类是不同序列的特征,一类是氨基酸之间的特征

encoder

s表示蛋白质数量,第一个是要预测的,后面s-1个是数据库检索出来的

r表示蛋白质中氨基酸数量

c是每个氨基酸表示为长度为c的向量(通道数)

Evoformer是transformer的变种,不同的是transformer接收一个序列为输入,但是这里是二维矩阵

MSA中每一行都是一个氨基酸序列,每一列是同一个氨基酸在不同蛋白质中的表现

Pair中每一行列都是氨基酸的两两关系

最后的输出中c已经很好地捕捉到了氨基酸的两两关系

decoder

两种特征解码得到输出

recycle

将编码器和解码器的结果回传到编码器的输入,希望根据结果继续精调

回传后权重还是共享的,也就是基于之前训练的,且不回传梯度,只过56层的反向传播

Tech Detail

encoder

与transformer块不同的地方:
(1)先Pair与MSA的多头注意力交互一次,最后再过MLP后全返回到下面,也就是在每个块中都完成了一次MSA与Pair信息的交互

(2)多头注意力变两个,先处理行再处理列,因为输入是二维的

Row的多头

(1)MSA作qkv,额外多了一个门控,也就是经过sigmoid之后不重要的特征会趋于0,最后和自注意力分数相乘,控制输出

(2)pair投影成一维,当作偏置拼接内积矩阵,再计算注意力分数

Col的多头

MLP

投射到原始长度的4倍(来源于transformer)

Outer product mean

把两个(s,cm)的矩阵投影到(s,c) ,做矩阵外积,即先扩充维数(s,c,1)然后内积得到(s,c,c),在s上求平均然后展开得到(c,c)

decoder

IPA接收氨基酸对、序列和回传的特征

Predict relative ...得到蛋白质结构的相对位置

最后的Predict是预测3D空间中旋转的角度并计算3D位置 

更像是一个RNN结构

loss function

FAPE:距离作损失

Extra Detail

Training with labelled and unlabelled data

The AlphaFold architecture is able to train to high accuracy using only supervised learning on PDB data, but we are able to enhance accuracy (Fig. 4a) using an approach similar to noisy student self-distillation35.

In this procedure, we use a trained network to predict the structure of around 350,000 diverse sequences from Uniclust3036 and make a new dataset of predicted structures filtered to a high-confidence subset. We then train the same architecture again from scratch using a mixture of PDB data and this new dataset of predicted structures as the training data, in which the various training data augmentations such as cropping and MSA subsampling make it challenging for the network to recapitulate the previously predicted structures. This self-distillation procedure makes effective use of the unlabelled sequence data and considerably improves the accuracy of the resulting network.

Additionally, we randomly mask out or mutate individual residues within the MSA and have a Bidirectional Encoder Representations from Transformers (BERT)-style37 objective to predict the masked elements of the MSA sequences. This objective encourages the network to learn to interpret phylogenetic and covariation relationships without hardcoding a particular correlation statistic into the features. The BERT objective is trained jointly with the normal PDB structure loss on the same training examples and is not pre-trained, in contrast to recent independent work38.

翻译:

AlphaFold架构能够仅使用PDB数据进行监督学习训练到高精度,但我们能够通过一种类似于嘈杂学生自我蒸馏的方法来增强准确性(见图4a)。

在这个过程中,我们使用训练过的网络来预测来自Uniclust30的大约350,000个不同序列的结构,并生成一个新的预测结构数据集,将其过滤为高置信度子集。然后,我们再次从头开始使用相同的架构进行训练,使用混合的PDB数据和这个新的预测结构数据集作为训练数据,其中各种训练数据增强技术,如裁剪和MSA子采样,使得网络难以重现先前预测的结构。这种自我蒸馏过程有效地利用了未标记的序列数据,并显著提高了结果网络的准确性。

另外,我们随机屏蔽或突变MSA中的单个残基,并使用类似于BERT的双向编码器表示转换(BERT)风格的目标来预测MSA序列的屏蔽元素。这个目标鼓励网络学习解释系统发育和共变关系,而不是将特定的相关统计信息硬编码到特征中。BERT目标与相同的训练示例上的正常PDB结构损失一起进行联合训练,并且与最近的独立工作不同,并没有预先训练。

总结:

(1)觉得PDB里面的数据不够,用噪音的学生蒸馏方法,也就是在有标号的数据上训练一个模型,然后去预测一个大的没有标号的数据集,把置信度较高的数据拿进来重新练。噪音是为了防止学了一个错误的数据进去,导致一直学错一部分

(2)想法来自于BERT,随机遮住一些氨基酸或者把一些氨基酸做变换,再像BERT一样去预测这些氨基酸,提升了建模序列的能力

Ablation Experiment

在CASP比赛和PDB数据集上做的消融实验 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐