Liming96

数据分析 / 统计学习

齐刘海的小柴

个人站

欢迎来到我的个人站~

统计在机器学习中的应用

2020-06-24 | 阅读：次

了解：

探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。
统计学方法可以用来清洗和准备建模要用的数据。
统计假设检验和估计统计可以帮助进行模型选择，并展示最终模型的技能和预测结果。

1、问题架构

问题的架构包括问题类型的选择，例如是回归还是分类，例如这个问题的输入和输出的结构即类型。
统计方法在问题的架构阶段有助于对数据的探索，其中包括：
- 探索性的数据分析。为了从数据中探索到特别的观点，从而进行的汇总和可视化。
- 数据挖掘。自动探索数据间的结构关系和模式。

2、数据理解

数据理解的意思是对变量的分布和变量之间的关系有一个更详细的理解。
用在理解数据的统计学模型的两类主流分支是：
- 汇总统计。使用统计数值来汇总变量间的分布和关系的方法。
- 数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法，例如：图表，绘图和图形。

3、数据清洗

数据清洗是对某些瑕疵数据（数据破坏、数据错误、数据损失）进行识别和修复的过程。
统计方法应用于数据清洗中例子有：
- 异常点检测。在数据分布中识别出离期望值很远的观察值的方法。
- 数据填补。修复或填补观察值中损坏或缺失数据的方法。

4、数据选择

数据选择是在建模时选出相关变量和观测值进行预测的过程。
应用在数据选择的两种统计学方法：
- 数据采样。从较大的数据集中系统化创建较小的代表性样本的方法。
- 特征选择。自动识别与结果变量更有相关性的变量的方法。

5、数据准备

数据准备通过对数据进行必要的转化，改变数据的形状或结构，使数据更适用于选定的问题架构或学习算法。
数据准备用到统计模型包括：
- 缩放。例如标准化和规范化。
- 编码。例如整数编码和独热编码。
- 变换。例如 Box-Cox 变换那样的次方转换。

6、模型评估

模型评估通过对未经过训练的数据进行预测来评估学习方法。
通常，训练过程和评估预测模型的规划过程叫作实验设计，这是统计方法的一个子领域。
- 实验设计。设计系统化的实验来比较独立的变量对结果影响的方法，比如对比预测的精度来选择机器学习算法。
作为实现实验设计的一部分，为了对可利用的数据做最合理的利用同时也为了评估模型的能力，统计学方法被用来重采样一个数据集。
- 重采样方法。为了训练和评估预测模型而将数据集系统化分出子集的方法。

7、模型配置

给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。
超参数的配置通常是经验性的，而不是由分析得出的。这需要大量的实验，以评估不同超参数值对模型性能的影响。
两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较，它们是：
- 统计假设检验。根据对结果的假设或期望值，对观察到的结果出现概率进行量化的方法。（提出使用临界值和 p 值）
- 估计统计。使用置信区间去量化一个结果的不确定性的方法。

8、模型选择

模型选择在众多机器学习算法中选择最适合给定的预测建模问题的方法，这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。
与模型配置一样，可以使用两类统计方法来解释不同模型的估计技能，并用于模型选择。他们是：
- 统计假设检验。根据对结果的假设或期望值，对观察到的结果出现概率进行量化的方法。（提出使用临界值和 p 值）
- 估计统计。使用置信区间去量化一个结果的不确定性的方法。

9、模型表示

模型表示是在部署模型对真实数据进行预测前展示给相关人员查看。
展示最终模型的一个环节包括展示模型的估计技能。
估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。
- 估计统计。使用置信区间去量化一个结果的不确定性的方法。

10、模型预测

模型预测是通过使用最终的模型来对我们不知道其输出的新数据进行预测。
作为预测的一部分，量化预测的置信度非常重要。
就像模型表示的过程一样，我们可以使用估计统计领域的方法来量化这种不确定性，例如置信区间和预测区间。
- 估计统计。使用置信区间去量化一个结果的不确定性的方法。