对于很多人来讲,这几个概念经常分不清,我当初入门的时候也一样,只不过那时候没有大数据的概念,作为一个数据分析从业者,其实并不需要关注这些名字直接的本质区别,只要明白一件事,数据最终是为了决策服务。
鉴于大家对此还是有些好奇,这里我大概说说我的理解,希望和各位有所交流,不足之处还望大家指正。
先看看数据分析与数据挖掘的区别:
首先要搞懂,什么是数据,什么是信息,这两者本质的区别就是数据是存在的,不用人脑,而信息是需要人脑进行处理,上面意思呢?
比如你装修完了房子,打算开始买家具,那么第一件事就是用尺子量房屋各处的长度和宽度,这些都是可以主观的看到的,客观存在的,这就是数据,而信息则不同,例如你要去买沙发,你会说,我们放5米的沙发刚好,4米的有些短,看着不大气,6米的太大了,看着不美观,那这种就属于信息,是需要人们经过大脑去判断的,属于主观,判断的依据就是数据(客观存在)。
大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。
数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。
数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。 举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……
什么是大数据?大数据是相对于 互联网、移动互联网、物联网(可穿戴设备)之前 一些 较小的,单一的,结构化的,非实时性的数据而言的。
大数据主要是指数据的量级(PB级)、复杂度(多结构化:语音,图片,视频等)、实时性(秒级甚至更快)、更细颗粒度等,她的产生应用可能是跨学科,跨领域的。
无论大数据还是小数据,我们可以把数据理解成是一个“原材料”。
数据分析与数据挖掘都属于数据应用的范畴。是基于“数据”这个原材料做出的一系列的菜(湘菜,粤菜,东北菜)。
数据分析是通过数据统计,联系实际业务情况(上下文),产生一些有用的信息,从而对企业经营决策(也可以对个人某些策略)提供辅助支持。