非冗余基因集获取,是生物信息学中的一项重要任务,主要目的是从大规模基因或蛋白质序列数据中筛选出具有代表性的、功能相对独立的基因或蛋白质集合。在研究物种进化、功能注释、疾病相关基因识别等领域有广泛应用。
#安装cd-hit
#输入 $1: 所有样本基因预测结果合并的氨基酸序列文件
cd-hit -i $1 -o out -c 0.9 -aS 0.9 -n 5 -G 0 -M 10000 -d 0 -g 1 -T 2
#对于大文件,可以通过拆分去冗余再合并再去冗余的方式,缩短总的运行时间
-M memory limit (in MB) for the program, default 800; 0 for unlimitted;
-c sequence identity threshold, default 0.9
-G use global sequence identity, default 1
if set to 0, then use local sequence identity,
-n word_length, default 5,