GPB | 微生物组暗物质:微生物组大数据的人工智能挖掘和应用
Genomics, Proteomics & Bioinformatics(GPB)在线发表了华中科技大学生命科学与技术学院宁康教授课题组完成的题为"Microbial dark matter: from discovery to applications"的研究综述。我们的"要文译荐"栏目很高兴邀请到文章的第一作者查毓国博士为大家解读微生物组大数据的人工智能挖掘和应用。微生物组学...
Genomics, Proteomics & Bioinformatics(GPB)在线发表了华中科技大学生命科学与技术学院宁康教授课题组完成的题为 " Microbial dark matter: from discovery to applications " 的研究综述。我们的"要文译荐"栏目很高兴邀请到文章的第一作者查毓国博士为大家解读微生物组大数据的人工智能挖掘和应用。
微生物组学研究揭示了丰富的新基因、物种、群落时空动态,这些新颖的群落结构和功能构成了微生物组暗物质。微生物组暗物质包括几个不同的组成部分(图1)。一是数百万个微生物群落生态位,包括一般环境,如淡水和土壤,疾病患者的肠道。二是数千万种微生物,包括细菌、古菌、病毒和原生生物。三是蕴含在微生物基因组中的数以亿计的功能基因。四是无数的影响微生物群落组成的生态和进化上的动态模式。所有这些微生物组暗物质的领域都为更好地理解微生物世界提供了巨大的潜力。
图1 微生物组暗物质以及相关的人工智能技术和应用
微生物知识的发现有三个关键步骤,包括人工智能技术和微生物组分析工具的开发、有待发掘的微生物组暗物质数据集、微生物组暗物质挖掘应用。本文介绍的微生物组暗物质类型主要包括:微生物群落生态位、新微生物物种、功能性基因、生态和进化上的动态模式。
微生物大数据来源于数以百万计的微生物群落样本,其中每个样本可能包含几百兆字节的16S rRNA基因测序数据。此外,全基因组测序可以为每个样本提供超过10 GB的测序数据。因此,包括几千个样本的典型研究可能包含超过10 TB的测序数据。人工智能主要是指使用深度学习的方法和工具。用于微生物大数据分析的典型人工智能技术包括关联挖掘、聚类模式识别和预测建模。使用人工智能技术挖掘微生物大数据有助于生成知识和模型,并应用于各种场景,包括新物种和基因的发现、群落样本溯源、疾病诊断的预测模型(图1)。
微生物组暗物质的研究进展
一、生态位:
大量的微生物群落生态位已经被注释或研究,其中包括数以百计的一般生态位(如土壤和淡水),以及无数的环境相关的微生物群落生态位。与环境相关的群落生态位涉及许多与微生物相关的具体应用,如群体特异性和疾病相关模式,但大多数应用仍有待研究。例如,肠道微生物群落如何反映患者结肠直肠癌的进展仍不清楚,目前的研究仅表明,肠道微生物群落随结直肠癌进展而变化。虽然有证据表明肠道微生物群可用于诊断结直肠癌,但将肠道微生物群作为反映结直肠癌的进展(reflect the progression of colorectal cancer, CRC)的指标仍不成熟。这是由于缺乏对肠道微生物群落如何影响结直肠癌进展的理解,以及缺乏准确的预测模型。
二、微生物物种:
传统的微生物组研究主要集中在细菌,尽管细菌只代表所有微生物的一个小部分。除了细菌,古生菌、病毒和原生生物在环境中也大量存在。古生菌被误认为是原核生物,但其分子特征与细菌截然不同。古生菌最初是在高盐度、强酸和厌氧等极端环境中被发现和描述的。许多独特的古细菌基因与这些极端环境的适应有关。病毒并不是严格定义上的微生物,因为它们只携带少量的基因,并被一层蛋白质外壳包围。病毒作为非常小的传染因子,依靠活细胞繁殖,是所有微生物中最小、数量最多的。原生生物是单细胞的真核微生物,其生理结构不像其他真核生物那么复杂。原生生物不一定在系统发育上相似,但由于它们不属于其他分类学王国,所以被认为是一个单一的类群。所有微生物,包括细菌、古生菌、病毒和原生生物,除了适应特定环境外,都是数十亿年进化的代表。例如,在NCBI分类系统中已经确定了超过60,000种原生生物,还有许多物种尚未确定。
三、功能基因:
测序技术的进步和发展,导致了聚焦于不同类型的微生物组项目。例如,人类微生物组项目, Tara海洋项目,地球微生物组项目。这些项目已经产生了大量的微生物基因组,并提供了重要的功能基因库。一些功能基因代表了管家基因,比如负责DNA复制和RNA转录的基因。这些基因对个体微生物是必不可少的,对整个微生物生态系统的动态平衡也是必不可少的。例如,参与土壤细菌群落中氮循环过程和碳循环过程的基因已在所有群落成员中检测到,并确定为群落特异性的管家基因。由于氮的有效性是土壤生态系统中最常见的环境限制之一,这些管家基因可以帮助耗尽过剩的氮,并帮助降解顽固的土壤有机质,从而维持生态系统的动态平衡。许多微生物的功能基因具有生态位特异性,参与重要的代谢途径,通过降解有害物质来帮助微生物适应环境、适应外部干扰和适应宿主。一个例子是在土壤微生物群落中富集的金属抗性基因。土壤生物群落中,金属是主要的非生物压力,许多土壤微生物的基因组开发了整套的功能基因适应金属压力,如能量代谢、离子运输、信号转导和DNA绑定。另一个例子是在湖泊微生物群落中丰富的促进细胞运动的功能基因。在水生微生物群落成员中,细胞生活在高度流动的环境下,使细胞运动的功能基因(例如,鞭毛形成蛋白)变得丰富。
四、生态和进化模式:
微生物群落内特定生态位的时空动态,以及这些时空动态对物种进化的影响,是微生物群落形成、发展、稳定的关键决定因素。然而,许多微生物的生态和进化模式仍有待发现。例如,人类肠道肠型的发现使数百个项目得以确定人类和动物肠道微生物群落的稳态。此外,肠型的存在只是在最十年才被认识到,而这种模式随着环境和宿主饮食的变化而动态变化。微生物群落分析的生态模式的另一个例子是人类肠道微生物群落的时间动态。人类肠道菌群对饮食的变化迅速做出反应,而个人肠道菌群的组成主要由长期(即一年以上)的饮食习惯决定。然而,这些动态在个体之间是高度可变的。在短期内(即少于一个月),人类肠道菌群可能在饮食干预期间发生巨大变化,而这种变化也可以在饮食恢复后迅速逆转。此外,在中期时间尺度(一个月到一年)中可以观察到强烈的肠道“可塑性”模式(Gut 2019;68:2254–5)(图2)。
图2 人类肠道微生物群落的纵向动态有一定的模式
对于短期干预,饮食干预已被证明是肠道微生物群落快速变化的主要驱动因素。中期干预方面,已证实饮食干预一个月后即可趋于稳定。对于长期干预,甚至一年后肠型也可能改变。
传统方法的困境可以通过人工智能来解决
虽然已经提出了几种计算方案来解决微生物组暗物质的问题,但是大多数这些方法都存在权衡,特别是考虑到大数据分析的效率和准确性时。例如,传统的无监督学习方法在有来自少量生态位的数百个样本的情况下,可以实现非常准确的微生物群落溯源。然而,当样本以及他们来自的生态位的数量增加时,这些传统方法的运行时间迅速增加,阻碍了大规模微生物群落溯源研究。这个问题可以通过深度学习解决,利用基于模型的方法,如神经网络,可以提高源跟踪的速度和精度。深度学习的另一个有用应用是抗生素耐药性基因(antibiotic resistance genes, ARG)挖掘,传统的基于BLAST搜索的方法被用来识别候选ARG。然而,这种方法仅限于与已知的ARG进行比较,当使用数百万需要筛选的候选对象时,搜索效率较低。通过基于模型的深度学习方法DeepARG和HMD-ARG,可以更有效地从数百万个候选ARG中挖掘出新的ARG(Microbiome 2018;6:23; Microbiome 2021;9:40)。
在当前的微生物数据挖掘方法中,消除权衡的解决方案依赖于深度学习技术(图3)。例如,微生物群落溯源问题中,一旦建立了合理的模型,基于模型的方法可以提高效率和准确性,与现有的基于距离和无监督的方法相比,基于模型的方法表现更好。第一种基于模型的源跟踪方法ONN4MST在已知微生物群落溯源方面已经优于现有方法(Genome Med 2022;14:43)。从微生物宏基因组序列中挖掘功能基因也是一个可以通过人工智能方法加以改进的领域。例如,DeepARG采用了一种以序列比对相似性为输入的深度学习方法,利用神经网络提高ARG的预测精度(Microbiome 2018;6:23)。
图3 解决微生物组暗物质挖掘问题的深度学习方法
与传统方法相比,深度学习方法能够实现高通量筛选,有利于未知知识的发现,效率高。
微生物组暗物质分析的应用
计算工具,特别是机器学习工具,已经使一系列依赖于微生物组暗物质挖掘的应用成为可能(图4)。
图4 基于计算工具的微生物组暗物质挖掘应用
微生物群落溯源
微生物群落溯源可用于多个方面的应用,包括污染源识别、法医研究和疾病预测。基于监督模型的方法可以准确量化源生态位对特定样本的贡献。例如,EXPERT方法能够使用从超过10,000个正常个体的人体微生物组样本构建的模型,准确区分患者的CRC分期(Chong et al., bioRxiv, 2021)。
新功能基因发现
从微生物群落中挖掘功能基因,尤其是抗生素耐药性基因和生物合成基因簇,是许多研究的重点。传统的功能基因挖掘方法依赖数据库进行搜索,尽管这些方法在发现新的功能基因方面能力有限。然而,机器学习方法已经使更有效地发现新的功能基因成为可能。例如,DeepARG已经识别了数千个以前没有注释的抗生素耐药性基因(Microbiome 2018;6:23)。
基于微生物群落时空动态模式的表型预测
人类微生物群落与宿主的健康状况有着错综复杂的联系,基于宿主与微生物群落的关系可以推导出预测宿主表型的模型。例如,机器学习方法被用于高度准确的人类实际年龄预测(mSystems 2020;5:e00630-19)。此外,机器学习方法如随机森林分类已成功应用于法医研究(Science 2016;351:158–62)。
总结
理解微生物组暗物质不仅是一个挑战,而且也是计算微生物学家探索大型数据集的机会,目的是更好地理解微生物群落,并为当前全球关注的人类健康和环境确定更好的解决方案。人工智能技术已经被应用于微生物组暗物质的挖掘问题。我们预计,人工智能技术的日益成熟会导致越来越深入的知识发现,这些知识可以从巨大的微生物组暗物质池中挖掘出来。
参考文献
1. Liu H, Han M, Li SC, Tan G, Sun S, Hu Z, et al. Resilience of human gut microbial communities for the long stay with multiple dietary shifts. Gut 2019;68:2254–5.
2. Arango-Argoty G, Garner E, Pruden A, Heath LS, Vikesland P, Zhang L. DeepARG: a deep learning approach for predicting antibiotic resistance genes from metagenomic data. Microbiome 2018;6:23.
3. Li Y, Xu Z, Han W, Cao H, Umarov R, Yan A, et al. HMD-ARG: hierarchical multi-task deep learning for annotating antibiotic resistance genes. Microbiome 2021;9:40.
4. Zha Y, Chong H, Qiu H, Kang K, Dun Y, Chen Z, et al. Ontology-aware deep learning enables ultrafast, accurate and interpretable source tracking among sub-million microbial community samples from hundreds of niches. Genome Med 2022;14:43.
5. Chong H, Yu Q, Zha Y, Xiong G, Wang N, Sun C, et al. Enabling technology for microbial source tracking based on transfer learning: from ontology-aware general knowledge to context-aware expert systems. bioRxiv 2021.
6. Huang S, Haiminen N, Carrieri AP, Hu R, Jiang L, Parida L, et al. Human skin, oral, and gut microbiomes predict chronological age. mSystems 2020;5:e00630.
7. Metcalf JL, Xu ZZ, Weiss S, Lax S, Van Treuren W, Hyde ER, et al. Microbial community assembly and metabolic function during mammalian corpse decomposition. Science 2016;351:158–62.
文章编译来源:
Zha Y, Chong H, Yang P, Ning K. Microbial dark matter: from discovery to applications. Genomics Proteomics Bioinformatics 2022. https://doi.org/10.1016/j.gpb.2022.02.007
英文全文详见:
https://www.sciencedirect.com/science/article/pii/S1672022922000377#!
宁康,华中科技大学生命科学与技术学院教授,博士生导师,生物信息与系统生物学系系主任。宁康教授毕业于新加坡国立大学计算机专业,博士后工作于美国密歇根大学。近年来,宁康教授团队创建微生物组大数据挖掘策略和模型,并转化应用于健康和环境等研究领域。已作为通讯作者,在PNAS、Gut、Genome Biology、Genome Medicine、Microbiome、Bioinformatics、Nucleic Acids Research等生物学、医学和生物信息学顶级学术期刊发表学术论文100余篇,文章总引用超过5000次。担任国际期刊Genomics Proteomics Bioinformatics、Microbiology Spectrum、Scientific Reports等编委。中国计算机协会CCF杰出会员。担任中国生物信息学学会-基因组信息学分会副主任等。
GPB论文:
Microbial dark matter: from discovery to applications
https://doi.org/10.1016/j.gpb.2022.02.007
长按并识别二维码,阅读全文
推荐阅读
MicroPhenoDB量化关联宏基因组与病原微生物、核心基因和人类疾病表型
猜你喜欢
iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)