数据挖掘之路

一、数据挖掘经典案例

  1. 预测产品未来一段时间用户是否会流失,流失情况怎么样;
  2. 公司做了某个促销活动,预估活动效果怎么样,用户接受度如何;
  3. 评估用户信用度好坏;
  4. 对现有客户市场进行细分,到底哪些客户才是目标客群
  5. 产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效;
  6. 运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比
  7. 一些用户购买了很多商品后,哪些商品同时被购买的几率高;
  8. 预测产品未来一年的销量及收益。。。。

二、数据挖掘问题的分类

1、分类问题

  • 用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题。
  • 常见的分类方法:决策树贝叶斯KNN逻辑回归支持向量机神经网络等。

2、聚类问题

  • 细分市场、细分客户群体都属于数据挖掘的聚类问题。
  • 常见的聚类算法:划分聚类层次聚类密度聚类网格聚类基于模型聚类等。

3、关联问题

  • 交叉销售问题等属于关联问题
  • 关联分析也叫购物篮分析,常见的关联分析算法:Aprior算法Carma算法序列算法等。

4、预测问题

我们要掌握简单线性回归分析、多重线性回归分析、时间序列等。

三、利用 Python 进行数据挖掘

1、Pandas库的操作

  • Pandas主要用于数据分析
  • 需要掌握:
    • pandas 分组计算
    • pandas 索引与多重索引(索引比较难,但是却是非常重要的)
    • pandas 多表操作与数据透视表

2、Numpy数值计算

  • Numpy主要用作数据挖掘
  • 需要掌握:
    • Numpy array理解;
    • 数组索引操作;
    • 数组计算;
    • Broadcasting(线性代数里面的知识)

3、数据可视化——matplotlib 与 seaborn

  • Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

  • seaborn的使用

seaborn是一个非常漂亮的可视化工具。

  • pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

四、核心数据挖掘算法

  • 最小二乘算法
  • 梯度下降
  • 向量化
  • 极大似然估计
  • Logistic Regression
  • Decision Tree
  • RandomForesrt
  • XGBoost