通明学练教程-宏基因组测序数据分析流程-实战

宏基因组测序功能注释是对宏基因组数据进行分析解读的重要环节，其目的是识别和预测环境中微生物群落中所有基因的功能属性。具体来说，通过宏基因组测序得到的海量序列数据，运用生物信息学方法，将这些序列与已知功能的基因数据库（如KEGG、COG、GO等）进行比对分析，从而推测出每个基因可能参与的生物学过程、代谢通路以及编码的蛋白质功能。这一过程可以帮助我们理解微生物群落在生态系统中的作用机制，揭示其在环境适应、物质循环、能量流动等方面的贡献，进而为环境治理、工业发酵、医药健康等领域提供理论依据和技术支持。 12.1 基因功能注释 KEGG 基因功能注释是生物信息学中的一项重要任务，它旨在揭示基因或蛋白质的功能，包括其参与的生物学过程、分子功能以及细胞组分。KEGG（Kyoto Encyclopedia of Genes and Genomes）是一种广泛使用的生物信息资源，为基因功能注释提供了强大的工具和平台。在基因功能注释的KEGG方法中，通过将基因序列比对到KEGG数据库中的已知基因集（如KO数据库，即KEGG Orthology），可以预测和注释目标基因可能的功能。KO是一个系统层次上的基因分类系统，每一个KO代表一个假设的进化保守功能单位。具体注释步骤包括： 1. 序列比对：将待注释基因序列与KEGG数据库中的参考序列进行比对，如BLAST比对，找出相似性最高的KO。 2. 功能预测：根据比对结果，将KO的已知功能赋予待注释基因，从而推测该基因可能参与的生化通路、代谢反应、信号传导通路等生物学过程。 3. 通路映射：进一步地，KEGG还可以将这些基因映射到特定的生物通路图上，直观展示基因在整体生物学网络中的位置和作用，有助于理解基因在细胞活动和生命过程中的角色。总的来说，利用KEGG进行基因功能注释能够帮助科研人员深入理解基因的功能，发现新的生物学机制，并为后续的实验验证和疾病治疗研究提供理论依据。 12.2 基因功能注释 COG COG（Clusters of Orthologous Groups）是一种基于系统发育的基因功能注释方法，主要用于对细菌、古菌以及部分真核生物的蛋白质编码基因进行分类和功能预测。这一概念由NCBI（美国国家生物技术信息中心）的研究人员在2003年提出。 COG通过对来自多个物种的同源基因进行聚类分析，将具有相似或相同功能的蛋白质序列归为一类，形成一个“Orthologous Group”，即直系同源蛋白家族。每个COG代表了一个假设的单个祖先基因在物种分化过程中产生的所有后裔基因，因此，同一COG中的成员被认为执行相似的基本生物学功能。通过将未知功能的基因映射到特定的COG类别，研究人员可以推测其可能的功能。COG注释涵盖了三大主要的生物学过程：细胞代谢、信息传递与存储（如转录、翻译、DNA修复等）、细胞进程与信号传递（如细胞分裂、细胞壁合成、跨膜转运等）以及其他功能未知的蛋白质。总的来说，COG功能注释是生物信息学中非常重要的一个工具，它不仅有助于揭示基因的功能，还有助于理解基因组的整体结构和进化历程，进而推动生命科学领域的研究进展。 12.3 基因功能注释 GO 基因功能注释GO（Gene Ontology Annotation）是一种生物信息学的方法，用于描述和理解基因或蛋白质在细胞内的生物学功能、参与的分子过程以及细胞组分。GO是基于本体论（Ontology）的概念构建的一套标准化词汇系统，它包括三个主要的分支：分子功能（Molecular Function）、生物过程（Biological Process）和细胞组分（Cellular Component）。 1. 分子功能：这一部分主要关注基因编码的蛋白质在分子水平上的具体作用，如酶活性、信号转导、结构分子等。 2. 生物过程：这一分支描述的是由基因及其产物参与的更高层次的生物学活动或路径，例如代谢过程、细胞分裂、应激反应、信号传递等。 3. 细胞组分：这部分定义了蛋白质在细胞内的定位和结构关系，比如细胞核、线粒体、高尔基体、细胞膜等不同的亚细胞结构。基因功能注释GO的过程通常涉及将实验数据（如转录组测序、蛋白质相互作用网络、基因敲除或过表达实验的结果等）与GO术语进行关联，通过计算分析和人工审核相结合的方式，为每个基因或蛋白质分配一个或多个合适的GO术语。这些注释信息对于研究基因的功能、揭示生物通路、比较不同物种之间的保守性以及解释遗传变异影响疾病发生机制等方面具有重要意义。

EggNOG-mapper软件注释

一、eggnog-mapper简介拼接完的宏基因组序列，进行基因预测，去冗余，最终得到宏基因组测序的基因组。那么这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对，如果比对上则认为二者为同源基因，执行相同的功能。宏基因组中通常包括很多新发现的基因，无法比对上已知数据库。所以，在宏基因组研究中，一部分或者大部分基因无法注释得到功能属于正常现象。这里我们使用 eggnog-mapper 工具来进行基因功能注释。eggnog-mapper 是一个非常方便的基因功能注释流程。可以自动化完成基因功能注释工作，其内置了COG/KOG/KEGG/GO/BiGG 等数据库，也可以自行创建注释数据库。 eggnog-mapper 在不同的系统分类水平都进行了构建直系同源簇，当前使用的 eggNOG v5.0 版本数据库，包含 5,090 代表性的基因组，其中包括 4445 个细菌，168 古细菌，477个真核生物以及 2502 个病毒。当前 v2 版本的 eggnog-mapper，不在支持 hmmer 比对。二、软件安装网址：https://github.com/eggnogdb/eggnog-mapper 在线版本：http://eggnog-mapper.embl.de/ 文档：https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2 #安装eggnog-emapper conda create -n eggnog-mapper python=2.7 conda activate eggnog-mapper conda install -c bioconda -y eggnog-mapper mkdir eggnog_database cd eggnog_database #镜像数据下载 axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog.db.gz axel -n 100 http://download.nmdc.cn/tools/eggnog/eggnog_proteins.dmnd.gz #基因功能注释 diamond --version diamond version 0.8.22 #diamond提示数据库版本不对，就安装2.0.13版本 conda install diamond=2.0.13 复制三、软件使用 emapper.py -i mg.filter.faa --output annotation -m diamond --data_dir eggnog_database 复制选项参数： -i: 输入文件，最好是基因的氨基酸文件 -o: 输出结果前缀 -m: 使用 HMMER 策略还是 DIAMOND 策略，默认使用 HMMER，新版本只支持 diamond --cpu：使用的线程数 --translate：如使用的核酸序列，选择 HMMER 策略时需要先翻译成氨基酸序列 --usemem：将 emapper.db 读入内存 --output_dir：输出结果文件夹 --report_orthologs：列出所有进行功能转移的直系同源基因 --no_annot: 只汇总鉴定的最佳 seed 序列以及相应的 E 值和 Bitscore 值 --no_search:可直接基于--no_annot 的结果进行后续功能注释 --target_orthologs: one2one,many2one,one2many,many2many,all 可选。 --data_dir: 数据库目录 --tax_scope: 指定选择的直系同源基因的物种分类范围，默认为自动判断。四、结果解读最终会生成两个文件，分别是 mg.emapper.annotations 和 mg.emapper.seed_orthologs 第一列：查询序列名称；第二列：eggNOG 种子序列；第三列：eggNOG 种子序列 evalue；第四列：eggNOG 种子序列 bit score；第五列：预测基因名称；第六列：GO_terms, 预测的 GO，分号分隔；第七列：KEGG_KO: 预测的 KO,分号分隔；第八列：BiGG_Reactions: BiGG 代谢反应预测，分号分隔；第九列：eggNOG Taxonomic Scope 信息；第十列：匹配的 OGs; 第十一列：best_OG|evalue|score: Best matching Orthologous Groups (only in HMM mode) 第十二列：COG 功能分类；第十三列：eggNOG 功能描述；