数据挖掘
什么是数据挖掘?
它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。主要目标是从数据中挖取隐藏的信息。挖取的过程中会采用许多技术,包括运用一系列统计方法、模式识别、机器学习(归根结底都是统计方法啦)等等技术,来实现挖取隐藏信息的目的。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
数据挖掘与数据分析的区别?
数据分析和数据挖掘都是从数据库中发现知识,但却有所不同。数据分析主要通过统计、计算、抽样等相关的方法,来获取基于数据库的数据表象的知识。数据挖掘则主要通过机器学习或者是通过数学算法等相关的方法获取深层次的知识(比如属性之间的规律性,或者是预测)。简单来说,数据分析是把数据变成信息的工具,而数据挖掘是把信息变成认知的工具,可以将数据分析得出的信息转化为有效的预测和决策。
数据挖掘的任务
分类——聚类——关联——回归
(一)分类:确定一个特定的对象属于哪一类
常用算法:决策树、支持向量机(SVN),最近邻(KNN)、贝叶斯网络和神经网络
(二)聚类:根据相似性,把事物聚成簇。同簇之间的事物相似性较高;不同簇的事物之间相似性较差
常用算法:K-Means,BIRCH,DBSCAN,OPTICS等
(三)关联:描述而非预测性的方法,用来发现数据集背后,项集之间的关系
常用算法::Apriori,FP-growth
(四)回归:建立回归方程,用于预测今后因变量的变化
根据因变量和自变量的函数表达式分为:线性回归分析、非线性回归分析。
根据因变量和自变量的个数可分为:一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等
数据挖掘流程
数据采集:完成数据采集,将各种所需数据存入数据库。
数据预处理:主要是特征提取和数据清洗,包括了对原始数据进行类型转换、缺失值填补、将文本数据数据化向量化、缩放标准化等等等等。数据预处理将直接决定数据的最终质量,对挖掘结果产生十分显著的影响
数据分析:数据挖掘主要包括分类问题、聚类问题、关联模式挖掘、关联模式和异常检测这四个大类。分类问题和聚类问题是机器学习最经典的两大类问题,这就是数据挖掘为什么会看到机器学习的内容