反馈咨询
欢迎添加微信!
微信号:z_gqing
微信二维码:

1. 表格处理—去缺失值行

介绍

删除表格缺失值达到一定比例的行

输入

表格的各列以Tab符分割

结果

得到处理后的新表格

2. 表格处理—缺失值填充

介绍

对文本格式的表格进行缺失值填充

输入

表格的各列以Tab符分割

结果

填充缺失值的新表格

3. 表格处理—归一化

介绍

对文本格式的表格进行归一化处理

输入

表格的各列以Tab符分割,不能包含缺失值

结果

归一化处理后的新表格

4. 表格处理—对数处理

对文本格式的表格进行对数处理

输入

表格的各列以Tab符分割,不能包含缺失值

结果

得到处理后的新表格

5. 样本PCA分析

PCA分析采用降维的思想对样本关系进行低维平面的投影。 使用的程序是R语言的vegan、ade4包

输入

丰度文件: 例如 # a1 a2 a3 b1 b2 b3 var1 10 34 51 19 21 31 var2 22 21 41 89 78 79 var3 66 87 56 76 89 90 var4 18 37 46 55 54 63 var5 19 40 50 61 58 76 分组文件: 例如, #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

例如 Eigvals 5 38.9248 17.35772 12.70343 2.545609 0.1087814 Proportion explained 5 0.76356 0.15184 0.08133 0.00327 0.00001 Species 0 0 Site 6 5 a1 -53.3158253786436 20.1097825573183 6.18979333427741 -1.81295096183138 -0.0490949449829294 a2 -32.6758839166003 -7.56931372418045 -18.6846592025341 1.20352490590713 0.102330998001516 a3 -14.5188276424877 -27.9604243148421 14.2573281713209 0.628953820570339 -0.036421539975502 b1 34.3941955199972 11.121861820717 11.0922337952386 0.443500848548519 0.16070864585441 b2 26.5019102588601 10.2124503187444 -4.13336931468519 3.44039904982497 -0.129834272118011 b3 39.6144311588742 -5.91435665775718 -8.7213267836176 -3.90342766301959 -0.0476888867794898 Biplot 0 0 Site constraints 0 0

6. 两组差异分析

介绍

使用R语言的t.test函数做student T 检验,比较两组数据是否有显著性差异

输入

数据表: 例如 # a1 a2 a3 b1 b2 b3 var1 10 34 51 19 21 31 var2 22 21 41 89 78 79 var3 66 87 56 76 89 90 var4 18 37 46 55 54 63 var5 19 40 50 61 58 76 分组表: 例如 #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

生成结果表, 格式例如 a-mean a-sd b-mean b-sd statistic pvalue corrected_pvalue var1 0.1461 0.06793 0.07493 0.01469 1.77401741550659 0.1507 0.6029 var2 0.1423 0.04027 0.2632 0.03194 -4.07573002253929 0.01515 0.07576 var3 0.3719 0.1315 0.2718 0.02235 1.2988888921972 0.2638 0.6416 var4 0.1636 0.02798 0.1831 0.00293 -1.19774155247778 0.2971 0.6416 var5 0.1761 0.03259 0.207 0.01574 -1.47648650915485 0.2139 0.6416

7. logFC计算

8. 差异代谢物筛选

9. 提取差异代谢表

10. 代谢物聚类

11. 代谢物相关性分析

介绍

相关性分析使用的是python的scipy.stats模块

输入

输入的文件 例如: #OTU_ID C1 C2 C3 C4 N1 N2 N3 N4 S1 S2 S3 S4 var0 77 14 89 64 30 15 31 3 21 13 14 62 var1 7 31 38 55 80 96 16 83 53 79 79 50 var2 29 41 94 64 80 73 48 19 16 24 39 54 var3 11 87 63 66 94 36 36 13 41 34 44 55 var4 41 79 45 60 25 32 63 83 75 22 69 37 方法 Pearson: 最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适合做连续变量的相关性分析 Spearman: 对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。 但其属于非参数方法,检验效能较Pearson系数低。适合含有等级变量或者全部是等级变量的相关性分析 kendall: Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关 Kendall相关系数是对于定类变量的统计,pearson是对定距变量的统计,而spearman是对定序变量的统计 Kendall协和系数关注的是不同的评价者评价的趋势是否一致

结果

相关系数表 corr.xls,相关性P值表 pvalue.xls 格式例如: C1 C2 C3 C1 1.0 -0.035 -0.316 C2 -0.035 1.0 -0.523 C3 -0.316 -0.523 1.0

通明学练 数据挖掘 NGplot绘图 NewMer生信首页

关注我们获取最新动态和更多干货内容

微信公众号:NewMer生信 小红书号:NewMer B站:Newmer生信 抖音:NewMer生信 知乎:NewMer生信 客服微信号:z_gqing
Copyright © 2021-2025 上海牛马人生物科技有限公司 沪ICP备 2022007390号-2