这个问题之前,我先简单的说明一下,大数据的重要性和适用性。
首先,我国的大数据基础并不好,后来想通过管理,把复杂的事情简单化,标准化,从而产生大数据时代。
至于发展和应用,主要体现在三个方面:
第一:存储。利用大数据管理,可以有效的降低各方面的成本。
第二:计算。我们应该知道,大数据时代的计算速度很重要,而提高速度正是大数据发展中产生的必然结果。
大数据技术的发展历程
■文/王国强 杜 影 吴秋月(中国科协创新战略研究院)
社会的需求永远是技术发展的动力,大数据技术也是如此。所谓大数据技术,就是处理“海量数据”的技术。它是在人们不断解决“数字化信息问题”“海量信息问题”“非结构海量信息问题”等社会需求中逐渐产生发展起来的,大体上可分为3个阶段:大数据技术前期、大数据技术形成期和大数据技术突破期。
计算机的发明与应用要求人们把事物信息转化为可计算、可度量、数字化的数据
从20世纪50年代到90年代初,随着1946年第一台数字电子计算机ENIAC的诞生和发展,人们开始普遍使用二进制中“0”和“1”两个数字来表达信息,采用电子线路来执行算数运算、逻辑运算和储存信息。大量用“0”或“1”代表的信号反过来又产生庞大快速的数据流,由此导致了涉及数字的转换、存取、处理、控制等一系列高技术的发展,如微电子技术、光电传输技术、数字压缩和编码技术、多媒体数据库技术等。1971年,英特尔公司生产出了世界上第一个微处理器芯片4004,人类第一次将高智能赋予无生命的设备,这是人工智能和计算处理历史上的重要转折点。它的诞生使微处理器打破了由大型中央处理器一统天下的局面,从而将计算机带到办公室的桌子上。微处理器的发明发展,使得数字转化的速度、效率和范围大大提高,让计算机技术应用无处不在。20世纪70年代中期,曾有人对计算机的各种应用做过统计,列出了6 000多种应用,在这些应用中,直接对人类产生最大影响的就是数据库技术的应用。数据库技术是数据处理和信息管理系统的核心技术,主要通过研究数据库的结构、存储、设计、管理以及应用的基本理论方法,来实现对数据库数据进行处理、分析和理解的技术。其中,数据模型是数据库系统的核心和基础。计算机技术、数字化技术、数据库技术等共同构建了大数据的技术基础。
海量信息的处理使数据挖掘理论与技术不断发展
从20世纪90年代至21世纪初,随着信息数字化能力和数据库技术的不断发展,人们开始思考如何解决大数据的“数据丰富而信息贫乏”的问题,于是数据挖掘技术应运而生。1989年8月,在美国底特律召开的第11届国际联合人工智能学术会议上,数据挖掘 (Data Mining,也称Knowledge Discovery in Database,简称KDD)概念被正式提出。从1995年开始,一年一度的KDD国际学术会议让“数据挖掘”一词逐渐在学术圈流行。数据挖掘指的是从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用信息的过程。主要的技术方法有面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊集、粗糙集、遗传算法、决策树、最近邻技术等。复杂的数据挖掘系统通常采用多种数据挖掘技术。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,人们对大数据技术研究主要集中在“算法”(Algorithms)、“模型”(Model)、“模式”(Patterns)、“识别”(Identification)等问题上,大数据技术开始形成并不断发展,人类处理海量信息的能力得到大幅度提升。
非结构海量数据的迫切需求让大数据技术取得突破
随着计算机、互联网和数字媒体进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,特别是以2004年Facebook创立为标志的社交网络的流行,直接导致了大量非结构化数据的涌现,使得传统的处理数据和海量数据的数据库技术难以应对。如何存储、查询、分析、挖掘和利用这些非结构化数据信息成为社会的又一个重大难题。为应对这一挑战,人们开始对数据处理系统和数据库架构进行重新审视,这就出现了各种非结构化数据处理技术,如基于NoSQL的非结构化数据管理系统、网络代价估算、多种支持模式演化等。2009年,谷歌公司软件工程师杰夫?迪恩(Jeff Dean)在BigTable基础上开发了全球首个分布式数据库Spanner,标志着“云计算”(Cloud Computing)、“大规模数据集并行运算算法”(MapReduce)、“开源分布式系统基础架构”(Hadoop)等大数据前沿技术理论开始走向成熟,并行运算与分布式系统成为当前大数据处理的主要技术方法并得到广泛应用。
大数据是有马云率先提出的一个概念,他在各地的演讲中也多次提到大数据大数据云计算。当时是由阿里做的统计,如哪里的人卖什么东西最多,哪里的消费水平高等等。阿里为他这个数据的统计叫做大数据,这就是大数据的由来。发展阶段相信大家都有体会,几乎什么东西都依靠大数据的发展。
近年来,我国大数据产业从无到有,全国各地发展大数据积极性较高,行业应用得到快速推广,市场规模增速明显。2017年我国包括大数据核心软硬件产品和大数据服务在内的市场规模将超过2600亿元,与2016年相比,增长了49%。2017年1月,工信部发布了《大数据产业发展规划2016-2020年》,进一步明确了促进我国大数据产业发展的主要任务、重大工程和保障措施。国家政策的接连出台为推动大数据产业快速成长提供了良好的发展环境,未来2-3年市场规模的增长率将保持在50%左右。预计2020年,我国大数据市场规模将超过8000亿元,预计未来中国将成为全球数据中心。
图1中国大数据市场规模
(二)大数据投融资持续升温
持续升温的大数据创业潮,激发着国内大数据公司的“生产热情”,大数据持续被国内资本市场看好。自2011年以来,大数据领域成功融资的企业数量逐年增加,2014年进入快速上升阶段,环比增长176.47%,2014年以来持续稳步增长,2016年获得融资的企业数量达到221多家。据统计,截至2017年8月初,大数据领域有183家企业获得融资,大数据领域持续获得资本市场的高度青睐。