微生物多样性测序,通常采用高通量测序技术(如Illumina MiSeq、Roche 454、Ion Torrent等),通过对环境样本中的微生物16S rRNA基因V3-V4或V4区进行PCR扩增并测序,来研究微生物群落的组成结构和多样性。在这个过程中,序列拼接与质量控制是至关重要的步骤。
1. 序列拼接:
由于高通量测序仪产生的往往是短读长序列,对于16S rRNA这样的长片段,需要通过序列拼接的方式将这些短序列组装成长序列。在微生物多样性分析中,主要采用Overlap-Layout-Consensus (OLC) 或 de Bruijn图方法进行拼接。具体来说,首先识别出各个短序列之间的重叠区域,并基于这些重叠部分将短序列正确地排列和对接起来,形成全长的16S rRNA基因片段。拼接过程需确保准确无误,以避免因拼接错误导致后续物种分类信息的偏差。
2. 质量控制:
质量控制是保证测序数据准确性的重要环节,主要包括以下步骤:
a. 序列清洗:去除低质量reads,包括含有N(无法确定碱基)的reads,以及质量值低于设定阈值的reads。
b. 去除引物和接头序列:PCR扩增时引入的引物序列和测序平台上的接头序列需要被精确地去除,以免影响后续的序列比对和分析。
c. 碱基质量校正:通过质量控制图表对每个碱基的质量进行评估和校正,降低错误率。
d. 查找和过滤潜在的污染序列,比如来自实验操作人员、试剂或测序平台本身的背景菌群序列。
e. 操作 Chimera 检测:Chimera是由于PCR过程中的非模板引导延伸或模板跳跃造成的假阳性序列,这类序列会影响物种分类的准确性,因此需要使用专门软件进行检测并剔除。
完成以上步骤后,才能得到高质量的16S rRNA基因序列数据,用于后续的OTU聚类、物种注释及多样性和丰度分析。