LEfSe(Linear Discriminant Analysis Effect Size)分析是一种在生物信息学中广泛应用的统计方法,主要用于高通量测序数据(如16S rRNA测序、转录组测序等)的生物标志物发现和分类群体的差异物种鉴定。该方法由Segata等人于2011年提出。
LEfSe分析的主要目的是识别在不同样本组间具有显著差异表达且与分组类别有强烈关联的生物标志物(如微生物群落中的某个菌种)。它不仅考虑了生物标志物在各组间的相对丰度差异,还引入了效应值大小的概念,以衡量这些差异的生物学意义。
具体步骤包括:
1. 寻找在不同组别间存在显著差异表达的物种或功能;
2. 通过线性判别分析确定哪些物种或功能可以最佳地将不同的样本组进行区分;
3. 计算LDA得分(Linear Discriminant Analysis score),反映每个特征在不同组别之间的区分能力;
4. 通过设定显著性阈值(如p-value和LDA得分阈值),筛选出具有统计显著性和生物学意义的差异特征。
总的来说,LEfSe分析是一个结合了统计测试与生物解释性的强大工具,有助于揭示复杂微生物群落结构变化与宿主健康状态、环境因素等之间的潜在联系。