通明学练教程-宏基因组测序数据分析流程-实战

非冗余基因集获取，是生物信息学中的一项重要任务，主要目的是从大规模基因或蛋白质序列数据中筛选出具有代表性的、功能相对独立的基因或蛋白质集合。在研究物种进化、功能注释、疾病相关基因识别等领域有广泛应用。 #安装cd-hit #输入 $1: 所有样本基因预测结果合并的氨基酸序列文件 cd-hit -i $1 -o out -c 0.9 -aS 0.9 -n 5 -G 0 -M 10000 -d 0 -g 1 -T 2 #对于大文件，可以通过拆分去冗余再合并再去冗余的方式，缩短总的运行时间 -M memory limit (in MB) for the program, default 800; 0 for unlimitted; -c sequence identity threshold, default 0.9 -G use global sequence identity, default 1 if set to 0, then use local sequence identity, -n word_length, default 5,