1. 表格处理—去缺失值行
介绍
删除表格缺失值达到一定比例的行
输入
表格的各列以Tab符分割
结果
得到处理后的新表格
2. 表格处理—缺失值填充
介绍
对文本格式的表格进行缺失值填充
输入
表格的各列以Tab符分割
结果
填充缺失值的新表格
3. 表格处理—归一化
介绍
对文本格式的表格进行归一化处理
输入
表格的各列以Tab符分割,不能包含缺失值
结果
归一化处理后的新表格
4. 表格处理—对数处理
对文本格式的表格进行对数处理
输入
表格的各列以Tab符分割,不能包含缺失值
结果
得到处理后的新表格
5. 样本PCA分析
PCA分析采用降维的思想对样本关系进行低维平面的投影。
使用的程序是R语言的vegan、ade4包
输入
丰度文件:
例如
# a1 a2 a3 b1 b2 b3
var1 10 34 51 19 21 31
var2 22 21 41 89 78 79
var3 66 87 56 76 89 90
var4 18 37 46 55 54 63
var5 19 40 50 61 58 76
分组文件:
例如,
#sample group
a1 a
a2 a
a3 a
b1 b
b2 b
b3 b
结果
例如
Eigvals 5
38.9248 17.35772 12.70343 2.545609 0.1087814
Proportion explained 5
0.76356 0.15184 0.08133 0.00327 0.00001
Species 0 0
Site 6 5
a1 -53.3158253786436 20.1097825573183 6.18979333427741 -1.81295096183138 -0.0490949449829294
a2 -32.6758839166003 -7.56931372418045 -18.6846592025341 1.20352490590713 0.102330998001516
a3 -14.5188276424877 -27.9604243148421 14.2573281713209 0.628953820570339 -0.036421539975502
b1 34.3941955199972 11.121861820717 11.0922337952386 0.443500848548519 0.16070864585441
b2 26.5019102588601 10.2124503187444 -4.13336931468519 3.44039904982497 -0.129834272118011
b3 39.6144311588742 -5.91435665775718 -8.7213267836176 -3.90342766301959 -0.0476888867794898
Biplot 0 0
Site constraints 0 0
6. 两组差异分析
介绍
使用R语言的t.test函数做student T 检验,比较两组数据是否有显著性差异
输入
数据表:
例如
# a1 a2 a3 b1 b2 b3
var1 10 34 51 19 21 31
var2 22 21 41 89 78 79
var3 66 87 56 76 89 90
var4 18 37 46 55 54 63
var5 19 40 50 61 58 76
分组表:
例如
#sample group
a1 a
a2 a
a3 a
b1 b
b2 b
b3 b
结果
生成结果表,
格式例如
a-mean a-sd b-mean b-sd statistic pvalue corrected_pvalue
var1 0.1461 0.06793 0.07493 0.01469 1.77401741550659 0.1507 0.6029
var2 0.1423 0.04027 0.2632 0.03194 -4.07573002253929 0.01515 0.07576
var3 0.3719 0.1315 0.2718 0.02235 1.2988888921972 0.2638 0.6416
var4 0.1636 0.02798 0.1831 0.00293 -1.19774155247778 0.2971 0.6416
var5 0.1761 0.03259 0.207 0.01574 -1.47648650915485 0.2139 0.6416
7. logFC计算
8. 差异代谢物筛选
9. 提取差异代谢表
10. 代谢物聚类
11. 代谢物相关性分析
介绍
相关性分析使用的是python的scipy.stats模块
输入
输入的文件
例如:
#OTU_ID C1 C2 C3 C4 N1 N2 N3 N4 S1 S2 S3 S4
var0 77 14 89 64 30 15 31 3 21 13 14 62
var1 7 31 38 55 80 96 16 83 53 79 79 50
var2 29 41 94 64 80 73 48 19 16 24 39 54
var3 11 87 63 66 94 36 36 13 41 34 44 55
var4 41 79 45 60 25 32 63 83 75 22 69 37
方法
Pearson:
最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适合做连续变量的相关性分析
Spearman:
对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。
但其属于非参数方法,检验效能较Pearson系数低。适合含有等级变量或者全部是等级变量的相关性分析
kendall:
Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关
Kendall相关系数是对于定类变量的统计,pearson是对定距变量的统计,而spearman是对定序变量的统计
Kendall协和系数关注的是不同的评价者评价的趋势是否一致
结果
相关系数表 corr.xls,相关性P值表 pvalue.xls
格式例如:
C1 C2 C3
C1 1.0 -0.035 -0.316
C2 -0.035 1.0 -0.523
C3 -0.316 -0.523 1.0