齐刘海的小柴

统计在机器学习中的应用

了解：探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。统计学方法可以用来清洗和准备建模要用的数据。统计假设检验和估计统计可以帮助进行模型选择，并展示最终模型的技能和预测结果。1、问题架构问题的架构包括问题类型的选择，例如是回归还是分类，例如这个问题的输入和输出的结构即类型。统计方法在问题的架构阶段有助于对数据的探索，其中包括：探索性的数据分析。为了从数据中探索到特别的观点，从而进行的汇总和可视化。数据挖掘。自动...…

2020-06-24

统计学

 阅读全文 »
数据挖掘之路

一、数据挖掘经典案例预测产品未来一段时间用户是否会流失，流失情况怎么样；公司做了某个促销活动，预估活动效果怎么样，用户接受度如何；评估用户信用度好坏；对现有客户市场进行细分，到底哪些客户才是目标客群；产品上线投放市场后，用户转化率如何，到底哪些运营策略最有效；运营做了很多工作，公司资源也投了很多，怎么提升产品投入产出比；一些用户购买了很多商品后，哪些商品同时被购买的几率高；预测产品未来一年的销量及收益。。。。二、数据挖掘问题的分类1、分类问题用户流失率、...…

2020-06-24

机器学习理论

 阅读全文 »
降维方法总结（未完）

一、降维方法的分类降维方法主要分为两种：特征选择：仅保留原始数据集中最相关的变量。降维：寻找一组较少的新变量，其中每个变量都是输入变量的组合。二、常用的降维方法1、缺失值比率（Missing Value Ratio）（1）理论当缺失值在数据集中的占比过高时，可以选择直接删除这个变量，因为它包含的信息太少了。通常设置一个阈值，如果缺失值占比高于阈值，删除它所在的列。阈值越高，降维方法越积极。（2）编程实现# 导入需要的库import pandas as pdimport ...…

2020-06-23

机器学习理论

 阅读全文 »
有趣的 scala 语言

一、使用递归的方式去思考1、一个简单问题：对数列 xs 进行求和（不使用函数）Python 循环解法：def my_sum(xs): sums = 0 for i in length(xs): sums += xs[i] return sumsScala 递归解法：//xs.head 返回列表的第一个元素（头元素）//xs.tail 返回除头元素外剩余元素组成的列表def my_sum(xs: List[Int]): Int = if (xs.isEmpty) 0 else ...…

2020-06-22

大数据理论

 阅读全文 »
知识图谱原理（未完成）

想象一个场景，在百度中输入“姚明有多高”，会出现哪些界面？十年前的百度，可能会出现百度百科、相关新闻等等；现在的百度（直接给出结果）：这里运用了知识图谱。当然，作为知识图谱的创建者，Google给出的结果更为高级：一、什么是知识图谱？Google知识图谱的宣传语“things not strings”给出了知识图谱的精髓，即，不要无意义的字符串，而是获取字符串背后隐含的对象或事物。1、知识图谱的定义抽象：知识图谱本质上是语义网络（Semantic Network）的知识库实...…

2020-06-22

机器学习理论

 阅读全文 »
深度学习入门

引言：多层感知器（MLP） MLP 是我们最开始学习的神经网络模型结构，它具有输入层、多个隐藏层以及输出层，通过反向传播进行学习。利用MLP的方式并不能处理所有问题，因为它没法辨别处理时序性的问题，，例如：当输入为[1, 2, 3] 希望输出4 ，而当输入[3, 2, 1] 时希望输出0 ，对于MLP来说，[1, 2, 3] 和 [3, 2, 1] 是相同的，因此无法得到预期的结果。一、循环神经网络（RNN）1、语言模型语言模型：给定一句话前面的部分，预测接下来最有可...…

2020-06-22

机器学习理论

 阅读全文 »
文本挖掘入门

一、什么是文本挖掘？文本挖掘的意义就是从文本数据中寻找有价值的信息，来发现或者解决一些实际问题。文本挖掘中最重要最基本的应用是实现文本的分类和聚类，前者是有监督的挖掘算法，后者是无监督的挖掘算法。 wiki版本：文本挖掘，也称为文本数据挖掘，大致相当于文本分析，是从文本中获取高质量信息的过程。文本挖掘通常涉及构造输入文本的过程（通常解析，添加一些派生的语言特征和删除其他特征，然后插入到数据库中），在结构化数据中导出模式，最后评估和解释输出。典型的文本挖掘任务包...…

2020-06-22

机器学习理论

 阅读全文 »
探索性数据分析（EDA）

一文带你探索性数据分析探索性数据分析一、什么叫探索性数据分析？1、定义探索性数据分析（Exploratory Data Analysis，简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。wiki解释：In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets...…

2020-06-22

统计学

 阅读全文 »
异常值检测方法总结

一、Numeric outlier（数字异常值）/箱线图算法介绍：数字异常值方法是一维特征空间中最简单的非参数异常值检测方法，异常值是通过IQR（InterQuartile Range）计算得的。算法思想：其中$Q_1$：第一四分位数；$Q_3$：第三四分位数。二、Z-score算法介绍：Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布，异常值是分布尾部的数据点，因此远离数据的平均值。算法思想：若$|Z_i|>Z_{thr}$（$Z_{...…

2020-06-22

统计学

 阅读全文 »
决策树原理

一、什么是决策树？1、定义决策树是一种解决分类问题的算法，由下面几种元素组成：根节点：包含样本的全集内部节点：对应特征属性测试叶节点：代表决策的结果2、步骤Step1. 特征选择筛选出跟分类结果相关性较高的特征（通常利用【信息增益】进行筛选）Step2. 决策树生成从根结点出发，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点采用相同的方式生成新的子节点，直到信息增益很小或者没有新的特征可以选择为止。Step3. 决策树剪枝剪枝的...…

2020-06-22

机器学习理论

 阅读全文 »
假设检验总结

统计学知识之假设检验一、什么是假设检验？1、基本理解假设检验是统计学中的等于符号。2、深入理解在搜集数据之前，我们把想证明的结论写成备择假设（H1），把想拒绝的结论写成原假设（H0）。之所以写成这个形式，因为从上面不厌其烦的讨论中得知，这是方便统计推断的形式：当我们难以拒绝原假设时，只能得到结论，原假设也许是真的，现在还不能拒绝它；而当我们能够拒绝原假设时，结论是：它就很有把握是不真的。注意，在看到数据之前，我们不知道自己想证明的结论是否能够被证据所支持。在确定假设检验的形式的同时，我们对...…

2020-06-22

统计学

 阅读全文 »
Spark 实战

第一部分使用 Scala 语言开发 Spark 应用程序一、关于 Spark Spark 由加州大学伯克利分校 AMP 实验室开发，可用来构建大型低延迟的大数据处理的应用程序，并且提供了用于机器学习（MLlib）、流计算（Streaming）、图计算（GraphX）等子模块。 Spark 对数据的存储、转换、计算均基于 RDD（分布式内存，Resilient Distributed Dataset），通过对 RDD 的转化（Transformation）和动作（Action）算子进行...…

2020-06-22

大数据实战

 阅读全文 »
Spark 入门教程

Spark 入门教程引言：HadoopHadoop 解决的问题：解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。 HDFS：在普通 PC 组成的集群上提供高可靠的文件存储，通过将块保存多个副本的方法解决服务器或硬盘坏掉的问题。（ Namenode 负责数据存储位置的记录，Datanode 负责数据的存储） MapReduce：通过简单的 Mapper 和 Reducer 的抽象提供一个编程模型，可以在一个由几十台上百台的 PC 组成的不...…

2020-06-22

大数据理论

 阅读全文 »
Scala 课堂

一、基础1、表达式scala> 1 + 1val res0: Int = 2res0是解释器自动创建的变量名称，用来指代表达式的计算结果。它是Int类型，值为2。Scala中（几乎）一切都是表达式。2、值你可以给一个表达式的结果起个名字赋成一个不变量（val）。scala> val two = 1 + 1val two: Int = 2你不能改变这个不变量的值。3、变量如果你需要修改这个名称和结果的绑定，可以选择使用 var。scala> var name = "stev...…

2020-06-22

大数据理论

 阅读全文 »
MapReduce 原理

一、MapReduce 原理场景：150人的班级举行一次期末考试，老师想要统计每个分数有多少人，如何统计最高效？（PS：这门课有三个助教）方法一：老师人特别好，不好意思麻烦助教，一个人哼哧哼哧统计完了，一个小时过去了。。。。方法二：老师工作很忙，把任务分配给了助教，助教A统计、助教B记录、助教C负责扇风，50分钟过去了。。。。方法三：老师工作很忙，把任务分配给了助教，助教们急着去吃饭，一人拿了50份就开始统计，20分钟后每个人手里都有一张纸记录了当前50份试卷的分数情况。助教A...…

2020-06-22

大数据理论

 阅读全文 »
Hive 语法指南

一、一些常用命令创建数据库create database if not exists my_base;数据库里有表格 my_tableshow databases; //列出数据库describe databases my_base; //展示数据库 my_base的信息use my_base; //使用某个数据库 my_baseset hive.cli.print.current.db=true; //显示列头set hive.cli.print.current.db=false; //...…

2020-06-22

大数据理论

 阅读全文 »
Hive 入门教程

一、Hive是什么？ Hive是基于Hadoop的数据仓库二、DDL操作1、创建简单表创建简单表CREATE TABLE new_table (a INT, b STRING);创建外部表CREATE EXTERNAL TABLE new_table( a INT, b BIGINT, c STRING, d STRING, e STRING COMMENT 'IP Address of the User', f STRING COMMENT 'country of or...…

2020-06-22

大数据理论

 阅读全文 »
Welcome to Jekyll!

You’ll find this post in your _posts directory. Go ahead and edit it and re-build the site to see your changes. You can rebuild the site in many different ways, but the most common way is to run jekyll serve, which launches a web server and auto-r...…

2020-06-19

阅读全文 »
Keras 点评文本情感分析

一、准备工作1、数据导入import pandas as pddata = pd.read_csv('/Users/liming/Downloads/review.csv')print(data.shape)data.head()(100000, 3) reviewid reviewbody star 0 661913194 宝燕乐园的滑滑梯很出名啊，波浪行的，陡峭型的，管道式的，小...…

2020-06-19

机器学习实战

 阅读全文 »
决策树实战

一、CART算法1、基于iris数据集，构造CART分类树# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_iris# 准备数据集iris=load_iris()...…

2020-06-19

机器学习实战

 阅读全文 »