反馈咨询
欢迎添加微信!
微信号:z_gqing
微信二维码:

介绍

根据指定的相似度或距离定义计算出类之间的距离 大致过程: 1.将每一个元素单独定为一类 2.重复:每一轮都合并指定距离(对指定距离的理解很重要)最小的类 3.直到所有的元素都归为同一类 层级聚类,使用Python的scipy.cluster包 详细文档: https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html

输入

表格文件: 矩阵表格 例如 #OTU_ID C1 C2 C3 C4 C5 C6 var0 77 14 89 64 52 50 var1 7 31 38 55 60 30 var2 29 41 94 64 49 9 ...... 聚类数: 得到的类的个数 聚类方法: 依据对相似度(距离)的不同定义,将聚类方法分为三种 complete:Complete-linkage,要比较的距离为元素对之间的最大距离 average:Group average,要比较的距离为类之间的平均距离 single:Single-linkage, 要比较的距离为元素对之间的最小距离 距离算法: 距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。 可以使用该距离来确定特征之间的相似性,距离越小特征越相似。 对于距离的度量,可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型 euclidean 欧氏距离度量两个实值向量之间的最短距离。 由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量 缺点: 1.距离测量不适用于比2D或3D空间更高维度的数据。 2.如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜 braycurtis 基于物种的丰度信息计算,是生态学上反应群落之间差异性常用的指标之一 manhattan 曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的 缺点: 不如高维空间中的欧氏距离直观;没有显示可能的最短路径 hamming 汉明距离衡量两个二进制向量或字符串之间的差异 如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1 缺点: 距离测量只能比较相同长度的向量,它不能给出差异的大小 chebyshev 切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离 切比雪夫距离只有非常特定的用例,因此很少使用 minkowski 闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。 可以选择 p 值来找到最合适的距离度量 缺点: 为了找到正确的p值需要进行多次计算 cosine 余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。 余弦相似度通常用于与数据大小无关紧要的高维 缺点: 不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异 jaccard 杰卡德距离 用于确定两个样本集之间的相似性 两个集合 A 和 B 的交集元素在 A,B 的并集中所占的比例,称为两个集合的杰卡德相似系数 杰卡德距离与杰卡德相似系数相反,用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度 canberra 被认为曼哈顿距离(Manhattan Distance)的加权版本
生信通明 木牛零码 NGplot Newmer生信 公司产品
Copyright © 2021-2024 上海牛马人生物科技有限公司 沪ICP备 2022007390号-2