随着大数据的兴起,隐藏在大数据背后的相关技术也逐渐被揭开神秘的面纱,其中,数据挖掘即是大数据应用过程中非常重要的环节。以下是国内领先的移动大数据服务商极光大数据的副总裁陈宇针对数据挖掘技术的简析,并对比总结了大数据时代下的数据挖掘技术相较于传统数据挖掘的突出优势。
数据挖掘技术概要
从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程就是Fayyad和Piatetsky-Shapiror在1996年提出的数据挖掘的定义。这个定义有三个要点:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并带来巨大经济效益。
技术不断演进,社会不断发展,对于数据挖掘的定义也发生了一些变化。例如对于数据量级的变化,从海量已经到了巨量。在1996年的时候,人们是无法想象2017年我们将会处理如此巨大的数据。而数据处理的样本规模也在从采样发展到全量,例如极光大数据在处理关键人的同轨分析特征识别的时候,会处理几百亿的位置信息轨迹,从中提炼出具有相同轨迹的设备信息,从而通过设备信息关联出自然人的相互关系等等。
同时,相对于1996年,数据应用发掘企业的内在规律已经拓展到了社会运行特征、人群行为特征、经济发展特征等等各个方面。而数据挖掘的目的也不仅是为了经济效益,也对社会生产力提升和管理水平提升提供了相应支持。
两者有区别,也有重复。
大数据的应用有很多种,数据挖掘就是其中的一种;数据挖掘,是以大数据为基础的,没有大数据做不了数据挖掘,所以你能懂这两者的关系了吗?
但是这么和你说,很多圈子里的人不这么认为:在大数据这个词出来之前,数据挖掘的人就一直在做着现在的「大数据」的事情,而且远远更多。
是的,「大数据」就是把「数据挖掘」换了个叫法,而且包含的内容还不全。
你怎么看?
数据挖掘
数据挖掘是一项使用数据探索技术发现一些有趣(而不明显)的模式的技术。
什么模式?例如:根据某些特征对数据进行分组的方式、异常检测(罕见值)、某些观察值与其他值之间的相关性、某些事件的连续性、行为的识别等。
不久前刚从贵阳采访大数据回来,接触贵阳大数据管理者多位,大数据企业十数家,着实被扫盲一通,也有新的认知。大数据是泛概念,包括数据的采集、收集、过滤、筛选、开掘、应用、使用、反馈,等等等等。数据先得大,越大越好,越大越有空间与余地,先是越多越大越好,如国库粮仓,多了大了,回旋的余地才大 。然后是分门别类的筛选、过滤,有粗选,有细分,留以待用。第三步是根本用户要求和需求,开掘应用,利用数据作用于现实的生产、生活,对其产生影响,促进生产、生活的改变与改善。最后是在作用于生产、生活后,使用后的情况的数据收集与反馈,实现数据运行中的闭合循环,以此为依据进一步完善数据库,并促进开掘应有的再升级……如此往复无限……乃大数据和数据开掘之本、之实。
大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。具体分析如下:
1、大数据(big data):
指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。
个人理解,严格讲不是大数据和数据挖掘区别,是大数据分析和数据挖掘的区别,大数据分析是宏观分析,主要属于应用范畴,是目前针对各行各业进行的数据进行采集,归纳,整理分析的过程,而数据挖掘相对微观,主要属于技术范畴,在大数据的基础上进行深层次应用,分析,课题研究与计算,两者基础不同,分析的角度也不同。打个比方,在医疗领悟,对各种数据进行采集,并对某一病例进行快速查找属于大数据分析问题,而针对该病种大量本数据进行分析研究算法,得出该病种的数据技术特征,属于数据挖掘的范畴,大数据分析相对广义,可以包含数据挖掘,而数据挖掘则比较狭义,偏向于具体分析。
大数据不是一个很明确的概念,比较泛,挖掘在一定程度上是分析的概念,不知道你想知道了解啥,没必要纠结于概念或者名词的差异,如果你想做点实用的现在的产品也很多,数据挖掘的模型软件或者大数据处理平台,只要能解决问题带来增值价值的就会一直存着
回到本质看还是要解决什么问题
这是上半年国际数据中心公司IDC关于大数据分析和认知智能的一些预测,都是一些比较流行的技术趋势正在逐渐推广应用
以后的事业会很极端一端是纯数字另一端是人的情感,这就是数字时代
数据挖掘是大数据的一部分。大数据通常包含以下过程:数据的搜集与清洗过滤,数据进行转换形成智能报表,利用机器学习算法从数据中得到有价值的模式和信息,数据挖掘就是属于最后一类。
不是一个级别的概念,不能比较。大数据是一个泛称,数据挖掘是大数据分析的一门技术或者学科。