大数据是什么?

1

采集记录足够多的数据,使工作更加针对化和精准化,这是大数据吗?这不是大数据而只是数据化。

什么是大数据呢?例如洛杉矶警方曾对以往的刑事案件做了统计,通过算法得出了第二天的高概率犯罪地点,然后有针对性的派警察去该处巡逻,从而使得当地的犯罪现象下降20%。这是大数据。

再比如,经济学家都认为股票无法预测,而一位剑桥大学毕业的博士搞了个公司,对有史以来几乎所有的证券交易的数据进行记录,然后通过算法进行分析。

他对什么国家政策、公司业绩、行业走向等等一眼都不看,100%地排除主观意志的,只根据计算结果来进行投资,最后赚了大钱。这是大数据。

大数据的精髓并不在于数据的精准和数量,而在于对内在规律的挖掘和对未来趋势的预测。其思路是:一个结果是有很多原因的,原因作用的强度可能是随机的,我们对其中作用的机理并不清楚。

2

「大数据」(big data)和「资料科学家」(data scientist)是近年来商业界的热门关键字。不过,你感受到大数据的重要性,却未必真正了解大数据和你我的工作、和企业的关联性是什么?以下5 张图,让你快速了解大数据的商业应用。

Q1. 什么是大数据?

A : 狭义的定义是指,符合「3V」条件的数据资料,分别是:

  • Volume(大量):以过去的技术无法管理的资料量,资料量的单位可从TB(terabyte,一兆位元组)到PB(petabyte,千兆位元组)。
  • Variety(多样性):企业的销售、库存资料;网站的使用者动态、客服中心的通话纪录;社交媒体上的文字影像等企业资料库难以储存的「非结构化资料」。
  • Velocity(速度):资料每分每秒都在更新,技术也能做到即时储存、处理。广义的定义,《大数据的获利模式》作者城田真琴认为,还要包括具备储存、处理与分析这些资料的技术,和能够从这些资料中取出有用资讯或洞见的人才和组织。

Q2. 大数据分析和商业智慧(BI,business intelligence)有什么不同?

A : 美国顾问机构顾能(Gartner)分析师霍华‧瑞斯纳(Howard Dresner)在1980年代提出「商业智慧」概念,指有系统地储存企业内、外部资料,并加以分析,辅助商务决策。瑞斯纳认为,经理人应该亲自经手资料,以达到迅速决策与提高生产力的目标。

商业智慧可分析过去发生什么事,以及为什么会发生这件事,像是利用统计学回归分析,从A产品过去一年的销量结构,找出销售下滑的原因。大数据则可根据目前发生了什么事,预测未来将发生什么事。例如,电商可即时监控销售情况,预测顾客回购周期。

3

关于大数据,只需要了解这几点。

第一:什么是大数据

简而言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。数据量不在多,只要足以得出可靠的结论即可。


第二:如何获取大数据

4

这里从大数据和AI人工智能关系层面做个简单的分享!

大数据:人工智能背后的基石

大数据是人工智能的基石,目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。

简单而言何为大数据?

5

大数据是我的主要研究方向之一,同时也在带大数据方向的研究生,所以我来一下这个问题。

首先,大数据技术是一系列围绕数据价值化的技术总称,包括数据采集技术、数据存储技术、数据分析技术、数据呈现技术以及数据应用技术等,其中大数据技术与物联网技术、云计算技术、边缘计算技术和人工智能技术有紧密的联系。

按照目前大数据产业链的分布来说,大数据技术是从数据采集技术开始的,目前主要的数据采集渠道包括物联网系统(占比百分之90以上)、Web系统(含App)和传统信息系统,比较常见的数据采集方式就是通常“爬虫”等方式来实现,另外涉及到数据清洗技术,重点在于Sql语言的学习和掌握。

数据分析是目前大数据技术的重点,数据分析技术有两种常见的方式,分别是机器学习方式和统计学方式,不论采用哪种方式都需要具备一定的数学基础和编程基础。以机器学习方式为例,首先要掌握常见的机器学习算法,包括决策树、k-mean、SVM、Apriori、EM、PageRank、kNN、朴素贝叶斯等,接下来需要通过编程语言完成算法实现,目前Python语言在机器学习领域有广泛的使用。

通过Python语言来进行数据分析需要掌握一些比较常见的库,包括Numpy、Scipy、Matplotlib(用于结果呈现)、pandas等。Python语言借助于大量的库能够为数据分析人员节省大量的时间,而且调整起来也比较方便。目前大数据比较常见的落地应用就是数据分析,尤其是结合具体行业的场景大数据分析。

6

由于互联网的存在大数据收集才成为可能!所谓大数据就是从海量的互联网信息中通过运用统计学、概率论的原理,去伪存真得出有用信息经过云计算成为指导有关部门的决策依据!当然必须分门别类的收集大数据,政治、军事、经济、文化、社会、各行各业等等均有所侧重!具体如何实现请问这方面的專家学者!

7

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

8

1989年,当万维网出现之后,给我们带来了第四次传播革命,互联网以其海量的空间、互动的方式,使得信息数量急剧增加,根据ZDNET的数据显示,2013 年中国产生的数据总量超过0.8ZB,2 倍于2012 年,相当于2009 年全球的数据总量,而预计到2020年,中国产生的数据总量将达到16ZB。尤其在“摩尔定律”使得存储能力极速提升、社交媒体的出现使得生产数据的能力高速发展、新数据挖掘技术使得数据分析能力大大扩展三大动力的推动下,全世界进入了大数据时代,2013年也被称为大数据元年,意味着大数据开始进入商用阶段。在大数据时代,DT+将成为大势所趋。

大数据及其本质特征

大数据是指以服务于决策为目的,需要新型数据处理模式才能对其内容进行采集、存储、管理和分析的海量、高增长率和多样化的信息资本。

大数据具有如下本质特征:一是根本目的是服务于决策,大数据能够帮助各类组织和个人大幅度提升决策能力,做出更好的决策和判断;二是量度大,大数据通常是指100T以上的数据量,这难以依靠传统的计算手段有效计算,而必须依靠新的计算手段和数据挖掘工具;三是频率高,大数据是用户参与与互动而产生的数据,根据用户的网络痕迹来及时地了解用户的相关数据,这种数据是按照天甚至小时来计的高频数据。而传统的数据频率都很低,很多数据是按照月甚至按照年份来计算的;四是速度快,大数据是实时性的数据,能够实时反应。例如,在百度搜索框输入一个关键词,能够瞬间呈现,而传统的数据收集方式则是严重滞后的;五是维度丰富多样,大数据是全样本数据、多维度数据、非结构化数据,既包括普通的结构化数据,又包括视频和音频等非结构化数据。正是因为大数据的维度多样性,其也更为复杂。六是永远在线。在线是大数据的前提条件,从这个角度来说,大数据是永远在线的,能够随时被调用的。大数据通过分析各种网络终端上的用户痕迹,能够更好地分析用户的行为、情感、思想、爱好与需求,来更好地进行决策和分析。七是本质是信息资本。大数据是能够为政府和企业带来未来经济利益的信息资源,其本质是信息资产,而且随着大数据的应用越来越广,其价值会越来越大。因此,不应该仅仅把大数据看成成本,而把其看成和土地、资本、人才等一样的新生产要素。

政府数据公开是大数据发展的保障

大数据的重要组成部分是政府数据,因此政府数据公开的程度和广度将在很大程度上决定着大数据的发展水平。目前,美国等西方发达国家大力推进数据开放运动,在数据公开程度上居于世界前列。2011年9月20日,美国、巴西、印度尼西亚、墨西哥、挪威、菲律宾、南非、英国等八个国家(G8)联合签署了《开放数据声明》,在纽约发起“开放政府联盟”(OGP),以向本国社会开放更多的信息。2013年6月,8国集团首脑签署了《开放数据宪章》,制定开放数据行动方案,并设定了开放数据宪章的五大原则:开放数据为默认;为激励创新发布数据;为改善治理发布数据;注重数量和质量;让所有人可用。尤其需要指出的是,其中最重要的一条就是“开放为默认,不开放为特例”的原则,这就约束政府部门尽最大可能地公开所有数据,而反观我国,由于政府数据开放的程度很低,各部门基于自身的利益,基本上采取的是“开放为特例,不开放为默认”的原则,这也导致形成一个个的“信息孤岛”。

9

简单来说,大数据就是大量的信息,尤其指存在于互联网和数字终端中的数字信息。大数据到底有多大?统计数据表明,在一天之中,互联网产生的全部内容可以刻满1.68 亿张DVD。IBM 公司的研究称,在整个人类文明所获得的全部数据中,有90% 是过去2 年内产生的。而到了2020 年,全世界所产生的数据规模将达到今天的44 倍。

10

大数据 Big Data, 据说源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。数据已经被使用了十几年了,比如它们总是被用于各种分析,所以为什么说是「大数据」呢?主要是因为我们现在可用数据的数据量(Volume)、处理速度(Velocity)以及数据种类(Variety),所以它具有如下三个特点:三个特点:大容量、高速度、多种类。数据并不新,只是比之前大得多。


当然,大数据也有其缺陷。啪菠萝·毕加索说,大数据就是多,就是多。原来的设备存不下、算不动。Schönberger说,大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。


世界刚刚来到一场变革的起点,它将影响各行各业以及每个人生活。 不过,很多人仍将大数据视为一个可以忽略的事情。以下二十个事实相信会让你对大数据的认识更具体一些:

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章