反馈咨询
欢迎添加微信!
微信号:z_gqing
微信二维码:

文件

数据表: 例如 # a1 a2 a3 b1 b2 b3 c1 c2 c3 var1 10 34 51 19 21 31 90 80 66 var2 22 21 41 89 78 79 78 98 66 var3 66 87 56 76 89 90 45 76 43 var4 18 37 46 55 54 63 34 78 65 var5 19 40 50 61 58 76 34 67 88 分组表: 例如 #sample group a1 a a2 a a3 a b1 b b2 b b3 b c1 c c2 c c3 c

1. anova检验

介绍

比较多组差异的单因素方差分析,采用R语言的oneway.test函数分析

输入

数据表: 例如 # a1 a2 a3 b1 b2 b3 c1 c2 c3 var1 10 34 51 19 21 31 90 80 66 var2 22 21 41 89 78 79 78 98 66 var3 66 87 56 76 89 90 45 76 43 var4 18 37 46 55 54 63 34 78 65 var5 19 40 50 61 58 76 34 67 88 分组表: 例如 #sample group a1 a a2 a a3 a b1 b b2 b b3 b c1 c c2 c c3 c

结果

a-mean a-sd b-mean b-sd c-mean c-sd statistic pvalue qvalue var3 69.67 15.82 85 7.81 54.67 18.5 3.3503967399539 0.155 0.4649 var2 28 11.27 82 6.083 80.67 16.17 22.8804781644982 0.01006 0.05028 var5 36.33 15.82 65 9.644 63 27.22 3.07051418454829 0.1691 0.4649 var4 33.67 14.29 57.33 4.933 59 22.61 3.05621670780926 0.1867 0.4649 var1 31.67 20.6 23.67 6.429 78.67 12.06 20.3659112054502 0.01286 0.05145

2. Wallis秩和检验

介绍

Wallis 秩和检验是一种用于检验多个独立样本的分布是否相同的非参数统计方法。 使用的R语言的kruskal.test函数 该方法通过比较样本均值之间的差异来确定它们的相对顺序,从而避免了使用显著性检验或t-test等参数方法所带来的偏差。

输入

数据表: 例如 # a1 a2 a3 b1 b2 b3 c1 c2 c3 var1 10 34 51 19 21 31 90 80 66 var2 22 21 41 89 78 79 78 98 66 var3 66 87 56 76 89 90 45 76 43 var4 18 37 46 55 54 63 34 78 65 var5 19 40 50 61 58 76 34 67 88 分组表: 例如 #sample group a1 a a2 a a3 a b1 b b2 b b3 b c1 c c2 c c3 c

结果

a-mean a-sd b-mean b-sd c-mean c-sd statistic pvalue qvalue var3 69.67 15.82 85 7.81 54.67 18.5 4.4593837535014 0.1076 0.3227 var2 28 11.27 82 6.083 80.67 16.17 5.53501400560224 0.06282 0.3041 var5 36.33 15.82 65 9.644 63 27.22 3.28888888888889 0.1931 0.3862 var4 33.67 14.29 57.33 4.933 59 22.61 3.28888888888889 0.1931 0.3862 var1 31.67 20.6 23.67 6.429 78.67 12.06 5.6 0.06081 0.3041

3. pca(R)

PCA分析采用降维的思想对样本关系进行低维平面的投影。 使用的程序是R语言的vegan、ade4包

输入

丰度文件: 例如 # a1 a2 a3 b1 b2 b3 var1 10 34 51 19 21 31 var2 22 21 41 89 78 79 var3 66 87 56 76 89 90 var4 18 37 46 55 54 63 var5 19 40 50 61 58 76 分组文件: 例如, #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

例如 Eigvals 5 38.9248 17.35772 12.70343 2.545609 0.1087814 Proportion explained 5 0.76356 0.15184 0.08133 0.00327 0.00001 Species 0 0 Site 6 5 a1 -53.3158253786436 20.1097825573183 6.18979333427741 -1.81295096183138 -0.0490949449829294 a2 -32.6758839166003 -7.56931372418045 -18.6846592025341 1.20352490590713 0.102330998001516 a3 -14.5188276424877 -27.9604243148421 14.2573281713209 0.628953820570339 -0.036421539975502 b1 34.3941955199972 11.121861820717 11.0922337952386 0.443500848548519 0.16070864585441 b2 26.5019102588601 10.2124503187444 -4.13336931468519 3.44039904982497 -0.129834272118011 b3 39.6144311588742 -5.91435665775718 -8.7213267836176 -3.90342766301959 -0.0476888867794898 Biplot 0 0 Site constraints 0 0

4. nmds

介绍

NMDS分析采用降维的思想对样本关系进行低维平面的、样本距离矩阵的投影。 使用的程序是R语言的vegan、ade4包

输入

距离文件: 例如 # a1 a2 a3 b1 b2 b3 a1 10 34 51 19 21 31 a2 22 21 41 89 78 79 a3 66 87 56 76 89 90 b1 18 37 46 55 54 63 b2 19 40 50 61 58 76 b3 39 88 88 80 34 39 分组文件: 例如, #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

nmds_sites.xls 例如, Sample_ID MDS1 MDS2 a1 -6.52873776345856 -10.532740779081 a2 -32.0778419239557 -28.0856952034466 a3 -2.03251671057432 52.6725620029463 b1 -34.6510360665558 2.34836875444998 b2 23.4689604780897 -2.42428291864348 b3 51.8211719864547 -13.9782118562252

5. 欧式距离计算

介绍

使用的是python的scipy模块计算欧式距离

输入

输入的文件 例如: #OTU_ID C1 C2 C3 C4 N1 N2 N3 N4 S1 S2 S3 S4 var0 77 14 89 64 30 15 31 3 21 13 14 62 var1 7 31 38 55 80 96 16 83 53 79 79 50 var2 29 41 94 64 80 73 48 19 16 24 39 54 var3 11 87 63 66 94 36 36 13 41 34 44 55 var4 41 79 45 60 25 32 63 83 75 22 69 37

结果

欧式距离矩阵表 格式例如: C1 C2 C3 C1 0.01 0.035 0.316 C2 0.035 0.06 0.523 C3 0.316 0.523 0.04

6. pcoa

介绍

PCoA分析采用降维的思想对样本关系进行低维平面的、样本距离矩阵的投影。 使用的程序是R语言的vegan、ade4包

输入

距离文件: 例如 # a1 a2 a3 b1 b2 b3 a1 10 34 51 19 21 31 a2 22 21 41 89 78 79 a3 66 87 56 76 89 90 b1 18 37 46 55 54 63 b2 19 40 50 61 58 76 b3 39 88 88 80 34 39 分组文件: 例如, #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

pcoa.txt 例如 Eigvals 4 4979.38 4105.468 1165.903 0.0000000000004547474 Proportion explained 4 0.4034936 0.3326779 0.09447648 0.00000000000000003684949 Species 0 0 Site 6 4 a1 5.81956407517651 -14.757892747783 -8.99203408229362 0.00000027530206164819 a2 -19.0392179472861 -40.0653857822785 11.3274793700029 0.00000027530206164819 a3 -24.9639390316109 47.0740504660136 5.58657103367427 0.00000027530206164819 b1 -30.4879621365802 -2.63922667263033 -19.314683244903 0.000000275302061648191 b2 15.9998024484013 3.52907723333796 21.3099705972243 0.00000027530206164819 b3 52.6717525918994 6.85937750334027 -9.91730367370479 0.000000275302061648191 Biplot 0 0 Site constraints 0 0

7. adonis分析

介绍

adonis是一种基于距离的多元统计分析方法,是置换多元方差分析的简称。 通过投影到新空间,计算距离,从而确定样本之间的相似性或冗余度 使用的程序是R语言的vegan包

输入

距离文件: 例如 # a1 a2 a3 b1 b2 b3 a1 10 34 51 19 21 31 a2 22 21 41 89 78 79 a3 66 87 56 76 89 90 b1 18 37 46 55 54 63 b2 19 40 50 61 58 76 b3 39 88 88 80 34 39 分组文件: 例如, #sample group a1 a a2 a a3 a b1 b b2 b b3 b

结果

adonis_format.txt 例如, R^2 Pr(>F) group 0.0325334422546716 0.901960784313726 adonis_results.txt 例如, # Df SumsOfSqs MeanSqs F_Model R^2 Pr(>F) group_factor$group 1 265.5 265.5 0.134509837034535 0.0325334422546716 0.901960784313726 Residuals 4 7895.33333333333 1973.83333333333 - 0.967466557745328 - Total 5 8160.83333333333 - - 1 -

8. 相关性分析(带图表)

介绍

相关性分析使用的是python的scipy.stats模块

输入

输入的文件 例如: #OTU_ID C1 C2 C3 C4 N1 N2 N3 N4 S1 S2 S3 S4 var0 77 14 89 64 30 15 31 3 21 13 14 62 var1 7 31 38 55 80 96 16 83 53 79 79 50 var2 29 41 94 64 80 73 48 19 16 24 39 54 var3 11 87 63 66 94 36 36 13 41 34 44 55 var4 41 79 45 60 25 32 63 83 75 22 69 37 方法 Pearson: 最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适合做连续变量的相关性分析 Spearman: 对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。 但其属于非参数方法,检验效能较Pearson系数低。适合含有等级变量或者全部是等级变量的相关性分析 kendall: Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关 Kendall相关系数是对于定类变量的统计,pearson是对定距变量的统计,而spearman是对定序变量的统计 Kendall协和系数关注的是不同的评价者评价的趋势是否一致

结果

相关系数表 corr.xls,相关性P值表 pvalue.xls 格式例如: C1 C2 C3 C1 1.0 -0.035 -0.316 C2 -0.035 1.0 -0.523 C3 -0.316 -0.523 1.0

9. 聚类-层级聚类(按列聚类)

介绍

根据指定的相似度或距离定义计算出类之间的距离 大致过程: 1.将每一个元素单独定为一类 2.重复:每一轮都合并指定距离(对指定距离的理解很重要)最小的类 3.直到所有的元素都归为同一类 层级聚类,使用Python的scipy.cluster包 详细文档: https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html

输入

表格文件: 矩阵表格 例如 #OTU_ID C1 C2 C3 C4 C5 C6 var0 77 14 89 64 52 50 var1 7 31 38 55 60 30 var2 29 41 94 64 49 9 ...... 聚类数: 得到的类的个数 聚类方法: 依据对相似度(距离)的不同定义,将聚类方法分为三种 complete:Complete-linkage,要比较的距离为元素对之间的最大距离 average:Group average,要比较的距离为类之间的平均距离 single:Single-linkage, 要比较的距离为元素对之间的最小距离 距离算法: 距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。 可以使用该距离来确定特征之间的相似性,距离越小特征越相似。 对于距离的度量,可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型 euclidean 欧氏距离度量两个实值向量之间的最短距离。 由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量 缺点: 1.距离测量不适用于比2D或3D空间更高维度的数据。 2.如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜 braycurtis 基于物种的丰度信息计算,是生态学上反应群落之间差异性常用的指标之一 manhattan 曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的 缺点: 不如高维空间中的欧氏距离直观;没有显示可能的最短路径 hamming 汉明距离衡量两个二进制向量或字符串之间的差异 如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1 缺点: 距离测量只能比较相同长度的向量,它不能给出差异的大小 chebyshev 切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离 切比雪夫距离只有非常特定的用例,因此很少使用 minkowski 闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。 可以选择 p 值来找到最合适的距离度量 缺点: 为了找到正确的p值需要进行多次计算 cosine 余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。 余弦相似度通常用于与数据大小无关紧要的高维 缺点: 不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异 jaccard 杰卡德距离 用于确定两个样本集之间的相似性 两个集合 A 和 B 的交集元素在 A,B 的并集中所占的比例,称为两个集合的杰卡德相似系数 杰卡德距离与杰卡德相似系数相反,用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度 canberra 被认为曼哈顿距离(Manhattan Distance)的加权版本

生信通明 木牛零码 NGplot Newmer生信 公司产品
Copyright © 2021-2024 上海牛马人生物科技有限公司 沪ICP备 2022007390号-2