谈到大数据,一定会提到三个小案例:第一个例子是某个未婚少女怀孕了,甚至她老爸也不知道这件事儿,但是商家却打电话过来问需不需要买孕妇用品。第二个是经典的“啤酒和尿布”的例子,这个例子比较早,讲的是基于关联规则分析来预测超市里面顾客购买行为规律。第三个是近年来才吵吵的比较火热的例子,是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模。第一个例子背后是基于精准营销,是大数据针对个人级别的应用,第二个例子能够有效预测零售商需求,属于企业级别应用,而第三个例子则是地区级别和国家级别的应用。由此可看出,当大数据真正走进生活、走进社会,其施展能量的力度越来越大,越来越强。最后,大数据这个概念就被吹的神乎其神了。
当我们听到这些大数据的应用案例时,会很自然地去质疑这些案例的可靠性。心中不免默念,这玩意儿的确有如此靠谱么?而其中最让人感觉不靠谱的,无疑是第三个,Google预测流感这件事儿。2009年2月19日,Nature上面有一篇文章,“Detecting influenza epidemics using search engine query data”(感兴趣的朋友可以关注以下),论述了Google基于用户的搜索日志(其中包括,搜索关键词、用户搜索频率以及用户IP地址等信息)的汇总信息,成功“预测”了流感病人的就诊人数。
那么,Google为什么要干这件事儿呢?美国有个很牛的部门叫CDC,也就是疾控中心,这个部门统计美国本土各个地区的疾病就诊人数然后汇总,最后公布出来。但是呢,这个公布的数据的结果一般要延迟两周左右,也就是说当天的流感的全国就诊人数,要在两周之后才知道,Google呢就利用他的搜索引擎搭建了一个预测平台,把这个数据提前公布出来。所以说,Google做的工作并不是实际意义上的预测什么时候流感来,而是将CDC已经获得但是没及时公布的数据提前给猜出来,然后公布出来。当然,CDC为什么不及时公布数据,人家官方总是有自己的一堆理由的,我等草民不得而知,但是有一点是重要的,就是“越及时的数据,价值越高”,数据是有价值属性的。所以,Google的工作无论在公共管理领域还是商业领域都具有重大的意义。
Google的研究结果公布出来以后,大众对于这个研究案例的好评和差评都有不少,总之,引起了社会的热议,这个例子从而也成了经典的案例。那么社会为什么会对这个例子予以如此重要的关注呢?其原因就在于,如果在这个案例上成功了,Google就真正证明了大数据是“万能的”这件事,从而彻底颠覆社会对于大数据的看法。
首先,Google在这个研究中对于数据的处理只用了很简单的Logistic回归关系,稍微有点儿高中数学基础的朋友很快就可以理解应用,但是却成功地预测了复杂的流感规模的问题。Google用了简单的方法,预测复杂的问题。这件事为什么能成?根本就在于,Google的数据量大。这就是Google对于大数据的价值观。而大就是一切!Google有着世界上最大的搜索引擎,全世界每个用户的搜索行为都给存在Google的数据库里,Google想,我有这么多数据,不是想知道啥就知道啥。于是Google就做了这个伟大的事儿!
大数据+人工智能+超级计算机+管控纪律,对于自媒体来说,各位应该好好研究,在这样的前提环境下,各自的发展之路。
这个绝不是简单理解的问题,它关系到整个生态系统乃至于整个国家的未来。
/01
大数据的定义
首先,我们看看大数据的定义。
行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。
广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
大数据:所有数据的集合!
大数据具有五大特点,称为5V。
1. 多样(Variety)
大数据的多样性是指数据的种类和来源是多样化的,数据可以是结构化的、半结构化的以及非结构化的,数据的呈现形式包括但不仅限于文本,图像,视频,HTML页面等等。
2. 大量(Volume)
把大量的碎片信息通过一定的规则联系起来。
用于企业决策,分析客户需求。产品推广定位等。
这次疫情对大数据的应用就是一个好例子。把一个人的行程通过大数据比对。即使一个患者不知道自己何时感染的,通过大数据比对仍可以知道传播途径。
怎样简单理解“大数据”及其应用?
“大数据”研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
如今,大数据在互联网,电子商务领域得到了有效的应用,主要体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
1、大数据包括的内容很多,简单的说,人的一切行为活动的集合可以被称作大数据。
2、大数据可应用的方面也很多,比如广告推送等等。
3、大数据的应用,以此次疫情为例,支付宝推出的“健康码”,就是大数据的成功应用
支付宝通过大数据分析用户的行程轨迹,比如“地域”“交通情况”等等,分析出一个用户是否有感染的可能,根据风险的高低分配“绿码”“黄码”“红码”。
“大数据”已经不远了,离我们很近,几乎已经深入生活了。
1、我理解的大数据就是:数据量大(Volume)、数据种类多样(Variety)、 要求实时性强(Velocity) 。对它关注也是因为它蕴藏的商业价值大(Value)。也是大数据的4V特性。符合这些特性的,叫大数据。
2、对它关注一个原因就它的大价值,比方ebay,建立的大数据分析平台可以准确分析用户的购物行为。通过对顾客的行为进行跟踪、对搜索关键字广告的投入产出进行衡量,优化后eBay 产品销售的广告费降低了99%,顶级卖家占总销售额的百分比却上升至32%。就大数据价值这一块,例子很多,详情可以再自己查查。
再一个对它关注的原因就是因为这么大量和复杂的数据确实不好管理,这样就有了处理大数据的一些技术,比如Hadoop。Hadoop是个开源的,像百度做搜索,就用Hadoop管理数据。淘宝在2011年11月11日,搞得优惠活动,你想想在零点的时候,淘宝点击有多高,每一笔买卖算一个数据请求,那怎么保证网站的正常运转啊?这些就是一些技术方面的关注了。
3、它的作用更多,拿球赛说,我们现在可以通过比赛录像找出对手缺点了。有个大数据应用是视频教练工具,用这个工具,球员可以比较和对比同一投球手的不同投球,或是几天或几周的投球情况的时间序列数据。
4、解决的问题。你问的大数据解决什么问题,应该是处理大数据的技术解决什么问题。通过我上面说的,你大概也能知道一点了,管理大规模的复杂数据需要用到大数据的技术,通过大数据的技术把这些大数据管理分析好了,可以使企业领导对各方面有更明确的认识,做出更好的决策。
大数据说到底就是一个大字。到底有多大看拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。
在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用Excel算算看看不要说计算,根本连载入内存都不可能。
再比如说,Facebook据说拥有500亿以上的用户照片。前些日子美国波士顿发生了爆炸案。这些照片里可能就有爆炸案的线索。那你给我找找看那张照片上面有嫌犯看波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的照片可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。如果要考察爆炸案前后几天的照片那就更不现实了。还有的照片根本就没有时间和地点信息。
再举一个例子。2009年华盛顿大学的研究人员使用15万张Flickr上的图片,重建了整个罗马城的3D模型。整个重建过程的计算使用了496个CPU核心,耗时8小时。如果每张照片按100KB计算,总数据量达到15GB。至少要达到这个级别的数据,才能称得上大数据。
大数据,顾名思义,“大”该是应有之义,大数据的定义最初与容量有关系。业界有几种对大数据的定义,其中一个共同点就是数据的容量超出了原有的存储、管理和处理能力。
已经被应用到了各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹,5G 时代大数据大数据将无处不在
金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。