运行环境
参数设置
基本参数
删除缺失行(指定列)
缺失值统计和填充
填充方法有去除行、均值、中位数、众数填充,前向填充、后向填充
频数统计(按区间)
聚类-kmean聚类
kmeans聚类大致过程
1.假定对N个样本观测做聚类,要求聚为K类,首先选择K个点作为初始中心点;
2.按照距离初始中心点最小的原则,把所有观测分到各中心点所在的类中;
3.每类中有若干个观测,计算K个类中所有样本点的均值,作为第二次迭代的K个中心点;
4.然后根据这个中心重复第2、3步,直到收敛(中心点不再改变或达到指定的迭代次数),聚类过程结束
采用的程序是python的sklearn.cluster.KMeans
详见:
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
Apriori算法关联分析
经典的关联规则学习算法,主要用于从大量事务型数据中发现频繁项集和关联规则。该算法广泛应用于市场篮子分析、推荐系统等场景
Logistic回归