随着移动互联网和物联网的发展,所有的连接都在产生数据,从数据中挖掘到的信息价值早已超乎人们的想象 。在市场导向与国家大数据战略的推动下,大数据已成为企业发展必不可少的新动能 。调查显示,在2016年,几乎40%的公司在使用大数据技术,30%的公司表示在未来一年内采用大数据技术 。
文章插图
大数据技术的发展又离不开数据挖掘,
那 。。。
什么是数据挖掘?
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿 。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤 。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程 。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标 。
文章插图
数据挖掘如此重要,如何进行数据挖掘呢?
当然是知识!
知识将成为比数据更重要的资产
复旦大学计算机科学与技术学院教授肖仰华博士在他近期所作的《知识图谱与认知智能》报告中指出:前几年大数据时代到来的时候,大家都说“得数据者得天下” 。去年,微软研究院的沈向阳博士曾经说过“懂语言者得天下” 。而我曾经论述过,机器要懂语言,背景知识不可或缺 。因此,在这个意义下,将是“得知识者得天下” 。如果说数据是石油,那么知识就好比是石油的萃取物 。
文章插图
那么问题来了?你需要哪些知识?
数据挖掘是个复杂的过程,它需要统计学、数据库、机器学习、模式识别等多学科的交叉融合来实现 。
文章插图
数据挖掘过程中用到的算法也很多,下图是对这些算法的一个总体梳理:
文章插图
接下来我们就来说说这传说中的十大经典算法:
?决策树(C4.5算法)
?聚类(K-means算法)
?关联规则(Apriori算法)
?随机森林算法
?逻辑回归
?SVM
?朴素贝叶斯
?K最近邻算法
?Adaboost 算法
?神经网络
篇幅有限,为了保证阅读质量,本文只讲解前三个 。其余的算法讲解会不定期更新的呦,想学习的小伙伴看过来???
十大经典算法图解(一)
1. 决策树(C4.5算法)
决策树(Decision Tree),又称为判定树,是数据挖掘技术中一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型 。
文章插图
根据一些特征( feature )进行分类,每个节点提一个问题,通过判断,将数据分为若干类,再继续提问 。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上 。
决策树生长算法流程(以C4.5算法为例):
文章插图
C4.5算法实例图解:
文章插图
2. 聚类(K-means算法)
什么是聚类?
文章插图
什么是K-means?
文章插图
K-means算法流程图解:
文章插图
3. 关联规则(Apriori算法)
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)。其中,关联规则XY,存在支持度和信任度 。
关联规则经典算法及优缺点比较:
文章插图
Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法 。它的核心是基于两阶段频集思想的递推算法,该关联规则在分类上属于单维、单层、布尔关联规则 。
在Apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法需要对数据集进行多步处理 。
Apriori算法图解:
【轻松看懂数据挖掘中的十大经典算法 数据挖掘算法有哪些】
文章插图
推荐阅读
- 背诵古诗词好方法 轻松背诵古诗文好方法
- 白色衣服被染色了小妙招轻松解决
- 一文看懂集合竞价实用交易技巧 集合竞价的规则与技巧
- 玻璃粘胶了用什么轻松处理干净,装修残留的玻璃胶怎么处理家用
- 一分钟教你看懂所有宽带故障 无线网出现感叹号是什么原因
- 一文看懂ipad上市时间顺序及价格 ipad上市时间表及配置参数
- 一文学会看懂手机参数配置 买手机要看什么最重要
- 一文教你轻松调整硬盘分区 电脑分盘怎么合并
- 上百吨的飞机为何能轻松飞上天,重量超百吨的飞机是如何飞上天的
- 一文教你看懂水表数字 水表怎么看的,多少是一吨