“基因集丰度”通常在微生物组学、生物信息学等领域中被提及,它是指在一个特定环境中(如人体肠道、土壤、水体等),某一类或某几类基因或者功能基因家族在整个微生物群落基因组中的相对含量或拷贝数。通过对不同样本的基因集丰度进行比较分析,可以揭示各类基因在不同环境条件下的分布特征和功能活性,有助于深入理解微生物群落结构、功能及演替规律,对于环境治理、疾病诊断与治疗等诸多领域具有重要意义。
#基因集map原始数据
#soap软件
sample_gene_profile.pl
#生成索引文件
soap2.21release/2bwt-builder 2bwt_index/geneset.div-0.fa
#map 单个样本的原始数据
soap2.21release/soap -a ST200Fa.clean.2.fastq -b ST200Fa.clean.1.fastq -D 2bwt_index/geneset.div-0.fa.index -o ST200Fa.soap.pair.pe -2 ST200Fa.soap.pair.se -r 1 -l 35 -M 4 -p 6 -v 20 -c 0.95 -m 460 -x 660 2
#丰度统计
需要的输入文件是 soap结果和 基因序列文件(基因长度信息)
写程序解读 soap的结果文件,计算每个基因的read数
sample_gene_profile.pl -i1 gene.uniGeneset.fa -i2 560 -i3 ST200Fa.soap.pair.peST200Fa.soap.pair.se -n ST200Fa -o gene_profile -ppm T
计算丰度的另一种方法:不比对的方法:
Salmon
#1.建立索引
salmon index -t B1_NR100nl.fasta -p 9 -k 31 -i ./index
#2.比对
salmon quant --validateMappings -i ./index -l A -p 3 --meta -1 ../clean1_${b}.fastq -2 ../clean2_${b}.fastq -o ${b}.quant #基因定量