-
统计在机器学习中的应用
了解: 探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。 统计学方法可以用来清洗和准备建模要用的数据。 统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。1、问题架构 问题的架构包括问题类型的选择,例如是回归还是分类,例如这个问题的输入和输出的结构即类型。 统计方法在问题的架构阶段有助于对数据的探索,其中包括: 探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。 数据挖掘。自动...…
-
数据挖掘之路
一、数据挖掘经典案例 预测产品未来一段时间用户是否会流失,流失情况怎么样; 公司做了某个促销活动,预估活动效果怎么样,用户接受度如何; 评估用户信用度好坏; 对现有客户市场进行细分,到底哪些客户才是目标客群; 产品上线投放市场后,用户转化率如何,到底哪些运营策略最有效; 运营做了很多工作,公司资源也投了很多,怎么提升产品投入产出比; 一些用户购买了很多商品后,哪些商品同时被购买的几率高; 预测产品未来一年的销量及收益。。。。二、数据挖掘问题的分类1、分类问题 用户流失率、...…
-
降维方法总结(未完)
一、降维方法的分类降维方法主要分为两种: 特征选择:仅保留原始数据集中最相关的变量。 降维:寻找一组较少的新变量,其中每个变量都是输入变量的组合。二、常用的降维方法1、缺失值比率(Missing Value Ratio)(1)理论 当缺失值在数据集中的占比过高时,可以选择直接删除这个变量,因为它包含的信息太少了。 通常设置一个阈值,如果缺失值占比高于阈值,删除它所在的列。 阈值越高,降维方法越积极。(2)编程实现# 导入需要的库import pandas as pdimport ...…
-
有趣的 scala 语言
一、使用递归的方式去思考1、一个简单问题:对数列 xs 进行求和(不使用函数)Python 循环解法:def my_sum(xs): sums = 0 for i in length(xs): sums += xs[i] return sumsScala 递归解法://xs.head 返回列表的第一个元素(头元素)//xs.tail 返回除头元素外剩余元素组成的列表def my_sum(xs: List[Int]): Int = if (xs.isEmpty) 0 else ...…
-
知识图谱原理(未完成)
想象一个场景,在百度中输入“姚明有多高”,会出现哪些界面? 十年前的百度,可能会出现百度百科、相关新闻等等; 现在的百度(直接给出结果):这里运用了知识图谱。当然,作为知识图谱的创建者,Google给出的结果更为高级:一、什么是知识图谱?Google知识图谱的宣传语“things not strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物。1、知识图谱的定义 抽象:知识图谱本质上是语义网络(Semantic Network)的知识库 实...…
-
深度学习入门
引言:多层感知器(MLP) MLP 是我们最开始学习的神经网络模型结构,它具有输入层、多个隐藏层以及输出层,通过反向传播进行学习。 利用MLP的方式并不能处理所有问题,因为它没法辨别处理时序性的问题,,例如:当输入为[1, 2, 3] 希望输出4 ,而当输入[3, 2, 1] 时希望输出0 ,对于MLP来说,[1, 2, 3] 和 [3, 2, 1] 是相同的,因此无法得到预期的结果。一、循环神经网络(RNN)1、语言模型语言模型:给定一句话前面的部分,预测接下来最有可...…
-
文本挖掘入门
一、什么是文本挖掘? 文本挖掘的意义就是从文本数据中寻找有价值的信息,来发现或者解决一些实际问题。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 wiki版本: 文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。文本挖掘通常涉及构造输入文本的过程(通常解析,添加一些派生的语言特征和删除其他特征,然后插入到数据库中),在结构化数据中导出模式,最后评估和解释输出。典型的文本挖掘任务包...…
-
探索性数据分析(EDA)
一文带你探索性数据分析探索性数据分析一、什么叫探索性数据分析?1、定义探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。wiki解释:In statistics, exploratory data analysis(EDA) is an approach to analyzing data sets...…
-
异常值检测方法总结
一、Numeric outlier(数字异常值)/箱线图算法介绍:数字异常值方法是一维特征空间中最简单的非参数异常值检测方法,异常值是通过IQR(InterQuartile Range)计算得的。算法思想:其中$Q_1$:第一四分位数;$Q_3$:第三四分位数。二、Z-score算法介绍:Z-score是一维或低维特征空间中的参数异常检测方法。该技术假定数据是高斯分布,异常值是分布尾部的数据点,因此远离数据的平均值。算法思想:若$|Z_i|>Z_{thr}$($Z_{...…
-
决策树原理
一、什么是决策树?1、定义决策树是一种解决分类问题的算法,由下面几种元素组成: 根节点:包含样本的全集 内部节点:对应特征属性测试 叶节点:代表决策的结果2、步骤Step1. 特征选择筛选出跟分类结果相关性较高的特征(通常利用【信息增益】进行筛选)Step2. 决策树生成从根结点出发,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点采用相同的方式生成新的子节点,直到信息增益很小或者没有新的特征可以选择为止。Step3. 决策树剪枝剪枝的...…
-
假设检验总结
统计学知识之假设检验一、什么是假设检验?1、基本理解假设检验是统计学中的等于符号。2、深入理解在搜集数据之前,我们把想证明的结论写成备择假设(H1),把想拒绝的结论写成原假设(H0)。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。注意,在看到数据之前,我们不知道自己想证明的结论是否能够被证据所支持。在确定假设检验的形式的同时,我们对...…
-
Spark 实战
第一部分 使用 Scala 语言开发 Spark 应用程序一、关于 Spark Spark 由加州大学伯克利分校 AMP 实验室开发,可用来构建大型低延迟的大数据处理的应用程序,并且提供了用于机器学习(MLlib)、流计算(Streaming)、图计算(GraphX)等子模块。 Spark 对数据的存储、转换、计算均基于 RDD(分布式内存,Resilient Distributed Dataset),通过对 RDD 的转化(Transformation)和动作(Action)算子进行...…
-
Spark 入门教程
Spark 入门教程引言:HadoopHadoop 解决的问题:解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS:在普通 PC 组成的集群上提供高可靠的文件存储,通过将块保存多个副本的方法解决服务器或硬盘坏掉的问题。( Namenode 负责数据存储位置的记录,Datanode 负责数据的存储) MapReduce:通过简单的 Mapper 和 Reducer 的抽象提供一个编程模型,可以在一个由几十台上百台的 PC 组成的不...…
-
Scala 课堂
一、基础1、表达式scala> 1 + 1val res0: Int = 2res0是解释器自动创建的变量名称,用来指代表达式的计算结果。它是Int类型,值为2。Scala中(几乎)一切都是表达式。2、值你可以给一个表达式的结果起个名字赋成一个不变量(val)。scala> val two = 1 + 1val two: Int = 2你不能改变这个不变量的值。3、变量如果你需要修改这个名称和结果的绑定,可以选择使用 var。scala> var name = "stev...…
-
MapReduce 原理
一、MapReduce 原理场景:150人的班级举行一次期末考试,老师想要统计每个分数有多少人,如何统计最高效?(PS:这门课有三个助教) 方法一:老师人特别好,不好意思麻烦助教,一个人哼哧哼哧统计完了,一个小时过去了。。。。 方法二:老师工作很忙,把任务分配给了助教,助教A统计、助教B记录、助教C负责扇风,50分钟过去了。。。。 方法三:老师工作很忙,把任务分配给了助教,助教们急着去吃饭,一人拿了50份就开始统计,20分钟后每个人手里都有一张纸记录了当前50份试卷的分数情况。助教A...…
-
Hive 语法指南
一、一些常用命令创建数据库create database if not exists my_base;数据库里有表格 my_tableshow databases; //列出数据库describe databases my_base; //展示数据库 my_base的信息use my_base; //使用某个数据库 my_baseset hive.cli.print.current.db=true; //显示列头set hive.cli.print.current.db=false; //...…
-
Hive 入门教程
一、Hive是什么? Hive是基于Hadoop的数据仓库二、DDL操作1、创建简单表创建简单表CREATE TABLE new_table (a INT, b STRING);创建外部表CREATE EXTERNAL TABLE new_table( a INT, b BIGINT, c STRING, d STRING, e STRING COMMENT 'IP Address of the User', f STRING COMMENT 'country of or...…
-
Welcome to Jekyll!
You’ll find this post in your _posts directory. Go ahead and edit it and re-build the site to see your changes. You can rebuild the site in many different ways, but the most common way is to run jekyll serve, which launches a web server and auto-r...…
-
Keras 点评文本情感分析
一、准备工作1、数据导入import pandas as pddata = pd.read_csv('/Users/liming/Downloads/review.csv')print(data.shape)data.head()(100000, 3) reviewid reviewbody star 0 661913194 宝燕乐园的滑滑梯很出名啊,波浪行的,陡峭型的,管道式的,小...…
-
决策树实战
一、CART算法1、基于iris数据集,构造CART分类树# encoding=utf-8from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.datasets import load_iris# 准备数据集iris=load_iris()...…