1. 删除缺失行(指定列)
2. 缺失值统计和填充
3. 描述性统计
4. 计算描述性统计量(分组计算)
5. 频数统计(单列)
6. 表格合并(按指定列)
7. 频数统计(按区间)
8. 聚类-kmean聚类
介绍
kmeans聚类大致过程
1.假定对N个样本观测做聚类,要求聚为K类,首先选择K个点作为初始中心点;
2.按照距离初始中心点最小的原则,把所有观测分到各中心点所在的类中;
3.每类中有若干个观测,计算K个类中所有样本点的均值,作为第二次迭代的K个中心点;
4.然后根据这个中心重复第2、3步,直到收敛(中心点不再改变或达到指定的迭代次数),聚类过程结束
采用的程序是python的sklearn.cluster.KMeans
详见:
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
输入
表格文件: 矩阵表格
例如
#OTU_ID C1 C2 C3 C4 C5 C6
var0 77 14 89 64 52 50
var1 7 31 38 55 60 30
var2 29 41 94 64 49 9
......
聚类数:
得到的类的个数
9. 生成透视表
10. Apriori算法关联分析
11. Logistic回归