NAR：eggNOG 5—蛋白功能层级注释数据库

文章目录Eggnog 5.0：一种基于5090种生物体和2502种病毒的层级、功能和系统学注释同源基因资源通讯作者Peer Bork简介划重点摘要背景更新和新增功能基因组更新物种分类水平和非监督的直系同源群图1. 不同物种水平独立计算的OGsOGs的层级一致性系统发育分析功能注释图2. 可视化OG的网页示例自定义用户数据的快速功能和直系同源分类测评结论和展望参考文献本文译者简介猜你喜欢写在后面..

刘永鑫Adam

5604人浏览 · 2019-11-11 19:53:04

刘永鑫Adam · 2019-11-11 19:53:04 发布

之前我们介绍过《EggNOG功能注释数据库在线和本地使用》，最近发布了eggNOG5.0，让我们带大家读一下NAR的文章，了解一下最新的功能吧！

Eggnog 5.0：一种基于5090种生物体和2502种病毒的层级、功能和系统学注释同源基因资源

eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses

翻译：刘永鑫中科院遗传发育所

责编：刘永鑫中科院遗传发育所

Nucleic Acids Research, [11.561]

https://doi.org/10.1093/nar/gky1085

Published: 12 November 2018

第一作者：Jaime Huerta-Cepas^1,2, Damian Szklarczyk³

通讯作者：Jaime Huerta-Cepas^1,2 j.huerta@upm.es, Peer Bork^1,9,10,11 bork@embl.de

合作作者： Davide Heller3, Ana Hern´andez-Plaza2,
Sofia K. Forslund1,4, Helen Cook5, Daniel R. Mende6, Ivica Letunic7, Thomas Rattei8,
Lars J. Jensen5, Christian von Mering 3

¹ 德国，海德堡，欧洲分子生物学实验室(EMBL)，结构和计算生物学中心

² 西班牙，马德里，INIA，UPM

³ 瑞士，苏黎士大学

⁹ 德国，海德堡大学医院和EMBL，MMPU

¹⁰ 德国，伯林，麦克斯·德尔布吕克医学中心

¹¹ 德国，维尔茨堡大学，生物信息系

通讯作者Peer Bork简介

https://en.wikipedia.org/wiki/Peer_Bork

Peer Bork是德国生物信息学家，德国海德堡欧洲分子生物学实验室(EMBL)结构和计算生物学中心主任。他在1990年获得生物化学博士学位，并从事理论物理研究至1995年。目前专注于研究人类和动物的微生物组研究。他是一系列杂志，包括***Science***的编委和审稿人，***Molecular Systems Biology***高级编辑。参与过人类、小鼠基因组计划，肠道宏基因组计划等国际项目。开发了众多生物信息学软件，如有害错意突变预测、蛋白互作网络等，引用近20万次，且以每年近2万次递增。

ORCID：https://orcid.org/0000-0002-2627-833X

截止3月27日，Google scholar统计引用19.7万次。

在宏基因组公众号之前发布Peer Bork的相关文章解读

划重点

EggNOG是一个直系同源蛋白组功能注释数据库，在基因组、宏基因组的基因功能注释方面有较多应用；
本次升级为EggNOG 5.0，已扩展到基于25 038基因组中挑选的4445个代表性细菌和168个古菌，以及477个真核生物和2502个病毒蛋白质组，较之前的4.5版本数据量增加了一倍；
改进了eggNOG在线服务，用于定制基因组或宏基因组数据集的快速功能注释和直系同源预测；
可在线使用，或下载数据至本地部署，请访问 http://eggnog5.embl.de

点评：EggNOG是一个公共数据库，包含了直接同源关系、基因进化史和功能注释。本次仅从4.5更新到5.0版，数据量增加了一倍，共计算了分布在379个分类水平上的4.4百万个直系同源群（OGs），以及它们的相关序列比对、系统发育、HMM模型和功能描述，同时改进了在线使用的易用性。

摘要

ABSTRACT

EggNOG是一个公共数据库，包含了直接同源关系、基因进化史和功能注释。在这里，我们展示了5.0版，主要更新了基础基因组集，已扩展到来自25 038基因组的4445个代表性细菌和168个古菌，以及477个真核生物和2502个病毒蛋白质组，这些被选为多样性并通过基因组质量过滤。共计算了分布在379个分类水平上的4.4百万个直系同源群（OGs），以及它们的相关序列比对、系统发育、HMM模型和功能描述。预先计算的进化分析提供了每个OG中重复/物种形成事件的高精度。我们的基准测试表明，尽管基因组数量增加了一倍，但直系同源学分配和功能注释的质量（80%的覆盖率）一直保持不变，在整个更新过程中没有显著变化。最后，我们改进了eggNOG在线服务，用于定制基因组或宏基因组数据集的快速功能注释和直系同源预测。所有预先计算的数据都可以公开下载，或者通过 http://eggnog.embl.de 上的API查询获得。

eggNOG is a public database of orthology relationships, gene evolutionary histories and functional annotations. Here, we present version 5.0, featuring a major update of the underlying genome sets, which have been expanded to 4445 representative bacteria and 168 archaea derived from 25 038 genomes, as well as 477 eukaryotic organisms and 2502 viral proteomes that were selected for diversity and filtered by genome quality. In total, 4.4M orthologous groups (OGs) distributed across 379 taxonomic levels were computed together with their associated sequence alignments, phylogenies, HMM models and functional descriptors. Precomputed evolutionary analysis provides fine-grained resolution of duplication/speciation events within each OG. Our benchmarks show that, despite doubling the amount of genomes, the quality of orthology assignments and functional annotations (80% coverage) has persisted without significant changes across this update. Finally, we improved eggNOG online services for fast functional annotation and orthology prediction of custom genomics or metagenomics datasets. All precomputed data are publicly available for downloading or via API queries at http://eggnog.embl.de

EggNOG 5.0主页 http://eggnog5.embl.de/#/app/home

背景

INTRODUCTION

在物种形成事件后，这些从同一祖先中分离出来的序列，构成了分子生物学和进化生物学中的一项基本任务。与重复事件后发生的序列分化的旁系同源(paralogs)相比，直系同源(orthologs)更容易保留其祖先功能（1,2），即使是在较长的进化时间尺度（3）。因此，区分这两种同源关系亚型对于产生准确的功能预测（2，4，5）至关重要。它对于系统遗传学和比较基因组学（6）或细胞类型进化研究（7）等方面的正确分析也是必不可少的。因此，多年来开发了几个数据库，使用不同的方法和操作定义（8-13）提供预先计算的直系同源预测。这些资源中的大多数(包括 eggNOG)都是国际联合会Quest for Ortholog（14）的一部分，是标准化的基准方法（15），参考数据集是开发和共享的。

eggNOG（基因进化谱系：无监督的同源群体——Non-supervised Orthologous Groups）是一种公共资源，在该资源中，数千个基因组同时被分析，以建立它们所有基因之间的同源关系。与类似的数据库相比，eggNOG专注于提供：（i）推断出的直系同原基因的全面功能注释，（ii）跨越数千个基因组的预测，涵盖生命和病毒的三个域，（iii）分析基于系统发生的直系同源分配和精确的层次关系（如，in-paralogies。。为此，一种基于最佳倒数命中三角测量（triangulation of best reciprocal hits，16）概念的物种感知聚类算法被应用于识别直系同源群（Orthologous Groups , OGs）：从同一物种形成事件开始分化的同源序列集。由于根据假定的参考物种形成事件（outgroup）的不同，直系同源关系也会有所不同——自2008年（17）生命之树诞生以来，随着对生命树顶端分辨率的提高，eggNOG计算不同分类级别的直系同源预测。然后，使用系统发育方法对所有分类级别的所有OG进行功能性注释和分析，从而允许用户进一步探索每个OG中物种形成和重复事件的历史，推断特定物种之间的成对直系同源关系，或跟踪其中的功能变化。

在这里，我们描述了eggNOG v5.0，包括以下比以前版本的改进：（i）基础数据库的主要升级，具有最全面的原核生物、真核生物和病毒基因组选择；（i i）定制宏基因组注释在线服务的更新，现在包括快速的选项。通过云计算进行直系同源预测和提高计算能力，以及（iii）更好地可视化OGs及其相关功能数据。

更新和新增功能

UPDATES AND ADDITIONS SINCE PREVIOUS RELEASE

基因组更新

Genomes update

Eggnog5.0将用于推断直系同源的基因组数量从2031个核心生物增加到了5090个。病毒蛋白质组也得到了升级，从Uniprot收集的352个增加到2502个，并通过完整性过滤（那些在多聚蛋白电子切割后蛋白数据少于三个的被丢弃）。为了选择最具代表性的原核生物基因组，我们使用物种描述方法（18）对从RefSeq（19）中检索到的25,038个基因组进行分类，获得4445个参考物种。同样，从Ensembl（11）和其他面向项目的资源中收集了477个真核基因组（参见 http://eggnog.embl.de/ 上的在线方法）。在所有情况下，在将基因组和蛋白质组纳入数据库之前，对其进行标准化和检查，以确定其完整性和最低质量。例如，不完整的原核基因组标准为缺失超过40个通用的、单拷贝的、标记基因（20个）中的4个，以及不能装配到少于300个重叠或N50小于10000的基因组。

物种分类水平和非监督的直系同源群

Taxonomic levels and non-supervised Orthologous Groups

直系同源群（Orthologous Group, OG）是指从同一物种形成事件（16,17）中分离出的三个或更多同源序列的群。因此，根据所考虑的物种分裂，可以推断出不同的OG，也就是说隐含着我们所考虑的分类决议。较老的物种形成事件导致更大的OG和更多的旁系同源(Paralogs，物种形成后发生的重复事件）以及成员之间更高的功能差异。相比之下，最近的物种形成了更小的，通常功能更为特殊的一组直系同源。例如，这意味着脊椎动物特有的OG将产生比使用所有真核生物物种构建的OG更精细的功能分化。

为了更好地反映这个分类范围，提高eggNOG 功能预测的精度，在这个版本中，我们大大增加了预先定义的分类水平（物种分裂）的数量，这些分类水平是独立计算的eggNOG。总之，我们采用了Jensen等人（17）描述的无监督eggNOG聚类方法。在379个分类级别上，生成了440万个OG（与前一版本（21）中的107个级别和190万个OG相比）。OGs的构建使用了从SIMAP项目（22）提供的所有Smith-Waterman矩阵中获得的最佳相互比对最优信息。此外，可用于三个生命域的人工校正的OGs被整合到eggNOG中相应的水平，即COGs（23）的细菌亚群、古菌arCOGs （24）和真KOGs（25）。同样，病毒OG也通过更深入的分类学类别进行了更新，现在更新到了科水平。图1显示了eggNOG v5.0的分类分布，以及每级生物的数量、OG推断值和功能注释覆盖率。

图1. 不同物种水平独立计算的OGs

基于原核(A)、真核(B)和病毒(C）基因组的不同分类级别独立计算的OGs。蓝色表示的新名称的分类水平和以前的版本有关。数字表示在每一级OGs的数量（红色），涵盖的物种数量（黑色）和功能注释的覆盖度（绿色）。

小技巧：多个进化树展示时，数据特别大的用圈图展示，数量小的用矩阵展示。即字体大小、密度可保持一致，又显示了图形的多样性，不容易导致审美疲劳。

Taxonomic levels for which OGs have been independently computed based on (A) prokaryotic, (B) eukaryotic and © viral genomes. Names in blue indicate new taxonomic levels with respect to previous eggNOG versions. Numbers indicate the the amount of OGs per level (red), number of species covered (black) and functional annotation coverage (green).

OGs的层级一致性

Hierarchical consistency of OGs

在更具体的分类水平上，明确地追踪和确定了更多的根向(rootward)OGs与其嵌套子代(nested children)OG之间的关系，只有具有多结构域组合的嵌合体(Mosic，其中单个结构域可能独立进化)蛋白例外（26,27）。层级不一致是在每个分类级别独立执行eggNOG的聚类算法的必然产物。考虑到这组物种在每个层次上都不同，嵌套的OG可能描述了同一组蛋白质的轻微不相容的进化历史。解决这些情况对于第三方应用程序（如STRING（28）注：为作者开发蛋白网络数据库，引用过万）尤为重要，在第三方应用程序中，需要在分类级别的层级结构中传播信息。因此，从4.5版开始，我们应用了一个后处理步骤来确保所有嵌套OG的层次一致性。

在这个数据库更新中，我们通过实施一个更精确的基于基因树协调的策略来改进我们的方法。简单地说，对于每一个发现的层次不一致，我们对跨越受影响的OG的蛋白质进行亚采样，并进行基因树到物种树的和解。每一个调和的树样本代表了对一个相互冲突的进化假设的投票。我们结合多数投票的和解来决定如何解决矛盾。然而，考虑到这个版本的eggNOG中有大量的物种，我们保留了一些大小控制启发法，例如COG不应该合并的规则。有关调节方法的完整说明，请访问 https://github.com/meringlab/og_consistency_pipeline 。

系统发育分析

Phylogenetics analysis

和之前的版本一样，eggNOG v5.0中的所有OG都是使用一种综合的系统发育方法进行分析的。基于最近的基准（29），我们将我们的系统基因组策略调整为以下步骤：用clustal omega（30）推断出多个序列比对，通过进行软比对修剪移除少于5个比对残基的列，使用ModelFinder （31）进行模型测试，使用IqTree（32）计算最大似然树，以及使用超快自举法(ultrafast bootstrap)计算分支支持率（33）。完整的工作流程是使用ETE工具包v3.1.1（34）执行的，它将完整的分析流程集成为内置的基因树工作流程（代码名为“eggnog50_full”）。对于~57000个OGs，由于基因家族规模的增加，在这套流程中计算是不可能的，因此在使用不太敏感的选项“–fast”执行IqTree时，使用了回退(fall-back)方法。使用（35）中描述的物种重叠算法，对所有4.4M的树进行分析，以推断物种形成和复制事件（即在共生关系中），从而为每个OG生成成对的直系同源表（区分一对一关系与多对多关系）。

功能注释

Functional annotations

使用更新版本的基因本体（Gene Ontology, 36），KEGG 通路（37），SMART/PFAM结构域（38）对直系同源基因组进行功能性注释，并扩展到CAZy（39）和KEGG模块。此外，使用（21）中描述的自动文本挖掘和基于机器学习的流程，为每个OG更新了一般的自由文本描述和COG功能类别。简言之，OGs被分配基于启发式的文本描述，以从分配智能结构域的名称、分配的基因本体术语或源基因数据库的自由文本注释中的常见子字符串中查找信息最丰富的文本子字符串。总共，80%的OG使用至少一个功能源进行注释。最后，我们改进了功能注释的在线可视化，现在可以从进化的角度通过绘制功能描述符、系统发生树以及为每个OG推断的复制/物种形成事件来探索功能注释（图2）。

图2. 可视化OG的网页示例

从eggNOG网站上提取的脊椎动物水平（A）上与OG ENOG5048VVQ 相关的系统发育的可视化。在系统发育树中，目标记录仅限于灵长类，以便于探索和观察（B）。复制节点（在旁系同源中）用红色标记，物种形成事件用蓝色（C）标记。每个直系同源序列的功能显示在存在/不存在矩阵（D）中。在复制事件的两侧可以注意到功能差异，将EPX与MPO序列（E）分开，它们都是GO Slim（矩阵D中的红色方块）和KEGG模块（矩阵D中的蓝色方块），同时具有相似的域结构（F）。

Visualization of the phylogeny associated to the OG ENOG5048VVQ at the vertebrate level (A) extracted from the eggNOG website. Target orthologs were restricted to primates in the phylogenetic tree to facilitate exploration (B). Duplication nodes (in-paralogies) are labeled in red, and speciation events in blue ©. The functional profile of each orthologous sequence is shown in the presence/absence matrix (D). Functional differences can be noticed at both sides of the duplication event separating EPX from MPO sequences (E) in both GO Slim terms (red squares in matrix D) and KEGG Modules (blue squares in matrix D), while having similar domain architectures (F).

自定义用户数据的快速功能和直系同源分类

Fast functional and orthology assignments for custom user data

eggNOG v5.0还改进了在线版本的eggNOG-mapper（40）使用的基础预计算数据，这是一种快速注释自定义宏基因组的工具。此外，我们的在线服务现在支持云计算，允许大量数据集的功能注释所需的密集计算运行在具有数百个可用CPU的专用服务器上。我们还引入了一个新的选项，用于快速批处理自定义序列集的直系同源分配，允许用户分配新基因和eggNOG中表示的所有基因组之间的直系同源关系。

测评

BENCHMARK

为了评估添加新基因组的效果，对直系同源预测和功能注释的平均质量进行了基准测试。使用OrthoBench2（41）和Quest for OrthoLogs（QFO）基准（15）。与eggNOG v4.5相比，我们改善了OrthoBench的Bilaterian（从72.1%到73.1%的F-measure）和Gammaprotobacteria测试（从93.2%到94.7%的F-measure）的性能。另一方面，QFO基准允许我们评估基于OG的预测和精准预测的性能。结果表明，根据所选择的策略，精确召回率(precision-recall ratio)有明显的折衷，这反过来反映了不同的情况下的直系同源分配。基于OG的预测产生了高召回值的结果，预测了两倍以上的原始配对数量，与酶分类(Enzyme Classification a)和基因本体保守检验（Gene Onthology Conservation tests）的基准平均值相比，Schlicker平均相似性下降<10.6%。这种高召回模式通常是首选的概率预测方法，如STRING 数据库（28）中的同源映射（interolog ）推理。相比之下，精细预测显示出更高的精度值，同时保持与之前的eggNOG版本相似的召回，这通常是准确功能转移的首选。一般来说，对于大多数的QFO基准测试，与先前的eggNOG版本相比，eggNOG 5.0的性能稍好或保持在Pareto 水平（详细的图和结果可在 http://orthology.benchmarkservice.org 上获得）。综上所述，这表明基因组的大幅度增加对推测的直系同源群体的质量没有重大影响，这表明eggNOG方法继续扩大规模。

结论和展望

CONCLUSIONS AND PERSPECTIVES

通过进一步简化和现代化构建eggNOG直系同源群的自动化方法，以及与改进或新开发的源数据库（例如，用于高质量原核基因组分类的子代，（42））同步，我们已经能够为eggNOG构建两个以上的核心基因组，包括：病毒基因家族的广泛扩张，基本上没有损失直系同源重建或功能注释的质量。由于预先定义的分类水平作为OG计算的基础，我们几乎将OG的数量增加了三倍，达到4.4百万(M)。因此，第5版的eggNOG应该是生态、进化或医学分析的有用资源，同时也是新测序基因、基因组和宏基因组快速功能注释的入口点。我们目前正致力于概念和算法的改进，以便能够继续跟上生物和宏基因组序列的大幅增长。

参考文献

Jaime Huerta-Cepas, Damian Szklarczyk, Davide Heller, Ana Hernández-Plaza, Sofia K Forslund, Helen Cook, Daniel R Mende, Ivica Letunic, Thomas Rattei, Lars J Jensen, Christian von Mering, Peer Bork, eggNOG 5.0: a hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses, Nucleic Acids Research, Volume 47, Issue D1, 08 January 2019, Pages D309–D314, https://doi.org/10.1093/nar/gky1085

本文译者简介

刘永鑫，博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位，2016年博士后出站留所工作，任宏基因组学实验室工程师，目前主要研究方向为宏基因组数据分析和植物微生物组。QIIME 2项目参与人，目前在***Science、Nature Biotechnology、Plant Cell、Genomics Proteomics Bioinformatics、Science China Life Sciences***等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号，目前分享宏基因组、扩增子原创文章600余篇，代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《QIIME2中文教程(18篇)》、《Nature综述：手把手教你分析菌群数据(1.8万字)》等，关注人数7万+，累计阅读1000万+。

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。