大数据 Big Data, 据说源出自Alvin Toffler上世纪70年代的作品《第三次浪潮》。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
目前,一些专业人士将大数据概括为四大特征,即“4V”: 数量大(Volume),数据量级已从TB(1012字节)发展至PB乃至ZB,可称海量、巨量乃至超量;多样性(Variable),数据类型繁多,多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息;速度快(Velocity),数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理,处理工具亦在快速演进,软件工程及人工智能等均可能介入;低价值密度(Value),以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流,360度全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
大数据到底有多大?先举个例子来说,欧洲研究组织进行的核试验每秒钟能产生40TB的数据。一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多,相当于美国两年的纸质信件数量;发出的社区帖子达200万个,相当于《时代》杂志770年的文字量;卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。随着计算机硬件成本、计算机内存成本的降低和超级集群计算机的产生,使得处理大规模的复杂数据成为可能,这样就产生以结构化(股票交易数据)、半结构化(网络日志)和非结构化(文本数据、音频数据、视频数据)为主的大数据。其中非结构化数据占互联网数据总量的80%。
关于大数据,业界并没有一个统一的定义,但却有几个一致的观点。有两份资料很好地诠释了大数据的本质。第一个定义来自于Gartner公司的Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇文章。他说,“大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。”另一个定义来自于麦肯锡全球数据分析研究所(Mckinsey Global Institute)在2011年5月发表的一篇论文:“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。”
这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据,在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同,因为它们所用工具和技术的处理能力可能大相径庭。
麦肯锡的论文中列举了一些有趣的事实,这些事实能够帮助读者认识今天的数据量是多么庞大。
■在今天,花600美元可以买下一个存储了全球所有音乐的硬盘。
■Facebook每个月都会有300亿条新信息被分享。
这其实是个非常有趣的问题,大家的目前好像很不一致,不过这种模棱两可并名优阻挡数据的使用,一种比较普遍的误解就是大数据就是根据数据的大小来确定的,如果它是数据,而且还很大那它就一定是大数据,数据大小事判断的原则之一,大数据很多其它方面的属性跟数据的大小关系不大,例如:考虑数据产生的速度和同时在产生数据的数据源数量和种类。
我们来看看,到底是通过什么来界定大数据的。我想我们都会同意,一个40MB的PPT演示文件、1TB的医疗图像和1PB的电影文件都很大,不过我们的问题是,它们是大数据吗?仅从它们的大小来说,我可以争辩说它们不是大数据,今天看来很大的文件明天也许就不算大了,不过我会说它们都是大数据,因为它们中的每一个都将应用它们的普遍技术推到了极限。40MB的PPT演示文件是大数据,因为没法跟同事和客户用电子邮件分享;1TB的医疗图像是大数据,因为无法轻易并充分地在远程显示器上实时显示,以供医生在为病人进行诊断使用;1PB的电影是大数据,因为无法在有效时间内对影片进行合理剪辑。
这是个好的开始,我们已经纠正了对于大数据的最大误解,那就是大数据就是看数据多大,我们能看到大数据有各种属性,大小只是其中之一,它们还能调整到系统的性能限制或是商业需求,但像数据产生速度这样的属性呢?或是产生数据的来源数量和种类呢?这些没法满足的定义,这就是为什么大数据能适用于从大小上来说根本不大的数据,有些能够成为大数据是因为它们的份数,因为它们由很多以某种关系联系起来的小数据碎片组成,这些数量众多的小数据组合在一起,就是大数据。比如说这些份数据,能在智能电表上看到,它们被用于世界范围的每个家庭,数据被传到电力公司,记录每家每20到30分钟产生和消耗的电力。
现在把这个数量乘以一个城市的家庭数量或是一个小镇的家庭数,大数据指的就是在一定时间之内或是在一定地理范围之内需要分析的数据份数,大份数数据还能在日志中找到,数据输入的次数非常之多,合在一起就形成大数据。在交易处理中也有大数据,很多交易合在一起,产生的数据库就有大数据。大数据的另一个又去的方面就是从结构来看,大数据并不都是一样的,有些大数据有固定的格式。比如:交易型数据库,每一条录入信息都能分成几种范畴,每一个都有明确定义的数据类型。有些大数据包含博客类录入信息,里面包含文本、图表、图像、声音和视频,这些数据都存在一起。
这就带来了大数据的最后一方面,生成的多样性以及相互的关联性。大数据的生成,从应用程序自动生成的信息,比如天气预报的图像到简单的录入信息;比如人们录下的日常生活片段;或者是键入的文字信息,大数据的更新速度也很惊人,而且具有互动性和增量性,产生的数据随时间不断变化,而且随着时间推移,数据会越来越准确,而且产生运算并推导出更多与数据相关的数据。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。——参考百度百科的解释
通俗点来说,就是你公司内部的财务表,每个人的年龄,工龄,工资这样的数据不能成为大数据。大数据是一个城市里有几个公司,在25~30岁这个年龄层的职员数量,薪酬在5000~8000元的人占比多少,这样的数据就是大数据。