一、数据挖掘经典案例
- 预测产品未来一段时间用户是否会流失,流失情况怎么样;
- 公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;
- 评估用户信用度好坏;
- 对现有客户市场进行细分,到底哪些客户才是目标客群;
- 产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;
- 运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比;
- 一些用户购买了很多商品后,哪些商品同时被购买的几率高;
- 预测产品未来一年的销量及收益。。。。
二、数据挖掘问题的分类
1、分类问题
- 用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题。
- 常见的分类方法:决策树、贝叶斯、KNN、逻辑回归、支持向量机和神经网络等。
2、聚类问题
- 细分市场、细分客户群体都属于数据挖掘的聚类问题。
- 常见的聚类算法:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
3、关联问题
- 交叉销售问题等属于关联问题
- 关联分析也叫购物篮分析,常见的关联分析算法:Aprior算法、Carma算法,序列算法等。
4、预测问题
我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。
三、利用 Python 进行数据挖掘
1、Pandas库的操作
- Pandas主要用于数据分析
- 需要掌握:
- pandas 分组计算
- pandas 索引与多重索引(索引比较难,但是却是非常重要的)
- pandas 多表操作与数据透视表
2、Numpy数值计算
- Numpy主要用作数据挖掘
- 需要掌握:
- Numpy array理解;
- 数组索引操作;
- 数组计算;
- Broadcasting(线性代数里面的知识)
3、数据可视化——matplotlib 与 seaborn
- Matplotib语法
python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。
- seaborn的使用
seaborn是一个非常漂亮的可视化工具。
- pandas绘图功能
前面说过pandas是做数据分析的,但它也提供了一些绘图的API。
四、核心数据挖掘算法
- 最小二乘算法
- 梯度下降
- 向量化
- 极大似然估计
- Logistic Regression
- Decision Tree
- RandomForesrt
- XGBoost