一、什么叫探索性数据分析?
1、定义
探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
wiki解释:
In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets to summarize their maincharacteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond theformal modeling or hypothesis testing task. Exploratory data analysis waspromoted by John Tukey to encourage statisticians to explore the data, andpossibly formulate hypotheses that could lead to new data collection andexperiments. EDA is different from initial data analysis (IDA), which focuses more narrowly on checking assumptions required for model fitting and hypothesistesting, and handling missing values and making transformations of variables asneeded. EDA encompasses IDA.
2、目的
- 检测异常值和缺失值
- 发掘特征变量之间的关系
- 特征变量与目标变量之间的关系
- 除目标变量外,特征变量彼此之间的关系
- 提取重要的特征变量
- 测试基本的假设
- 初步选择合适的模型
注:大多数EDA中,主要关注前三点。
(1)检测异常值和缺失值
- 异常值:如何发现异常值?发现异常值之后,应该如何处理异常值?(删除)
- 缺失值:如何发现缺失值?发现缺失值之后,应该如何处理缺失值?(1.删除;2.估计并填充)
(2)发掘特征变量之间的关系
- 特征变量之间相关性的强弱程度如何?
- 特征变量与目标变量之间的关系是怎么样的?
(3)提取重要的特征变量
对于目标问题而言,如何判断哪些特征变量是重要的?总的来说,与目标变量强相关的特征变量,通常是重要的特征变量。
二、探索性数据分析的步骤
-
Form hypotheses/develop investigation theme to explore(形成假设,确定主题去探索)
-
Wrangle data(清理数据)
网上有一个网址公布斯坦福有一个软件叫datawrangler可以供大家自己免费下载,用于探索数据分析,很快的解决数据清洗的工作,作为一个将来想成为数据科学家的人,处理“脏数据”,是我们必须走的路。
http://vis.stanford.edu/wrangler/
https://www.trifacta.com/products/wrangler/
https://www.douban.com/note/501799325/
-
Assess quality of data(评价数据质量)
-
Profile data(数据报表)
-
Explore each individual variable in the dataset(探索分析每个变量)
-
Assess the relationship between each variable and the target(探索每个自变量与因变量之间的关系)
-
Assess interactions between variables(探索每个自变量之间的相关性)
-
Explore data across many dimensions(从不同的维度来分析数据)
三、其他要做的事
1、写出一系列你自己做的假设,然后接着做更深入的数据分析
2、记录下自己探索过程中更进一步的数据分析过程
3、把自己的中间的结果给自己的同行看看,让他们能够给你一些更有拓展性的反馈、或者意见。不要独自一个人做,国外的思维就是知道了什么就喜欢open to everybody,要走出去,多多交流,打开新的世界。
4、将可视化与结果结合一起。探索性数据分析,就是依赖你好的模型意识,(在《深入浅出数据分析》P34中,把模型的敏感度叫心智模型,最初的心智模型可能错了,一旦自己的结果违背自己的假设,就要立即回去详细的思考)。所以我们在数据探索的尽可能把自己的可视化图和结果放一起,这样便于进一步分析。
四、单变量分析
1、位置估计
- 均值和加权均值
- 中位数和稳健估计量(中位数并非唯一的稳健位置估计量,为了消除离群值的影响,也广泛地使用了切尾均值)
2、变异性估计
变异性(variability)也称离差,它测量了数据值是紧密聚集的还是发散的。
- 标准偏差及相关估计值:平均绝对偏差、方差、标准偏差、中位数绝对偏差
- 基于百分位数的估计量:顺序统计量(极差)、四分位数、四分位距
3、探索数据分布
- 百分位数和箱线图
- 频数表和直方图
- 密度估计
4、探索二元数据和分类数据
- 众数
- 期望:加权均值
5、相关性
- 相关系数(皮尔逊相关系数)
- 相关矩阵
- 散点图
五、双变量及多变量分析
1、列联表
2、六边形图和等势线
3、小提琴图