这是一个非常好的问题,作为一名IT从业者,我来一下这个问题。
首先,大数据本身涉及到一个庞大的技术体系,从学科的角度来看,涉及到数学、统计学和计算机三大学科,同时还涉及到社会学、经济学、医学等学科,所以大数据本身的知识量还是非常大的。
从当前大数据领域的产业链来看,大数据领域涉及到数据采集、数据存储、数据分析和数据应用等环节,不同的环节需要采用不同的技术,但是这些环节往往都要依赖于大数据平台,而Hadoop则是当前比较流行的大数据平台之一。
Hadoop平台经过多年的发展已经形成了一个比较完善的生态体系,而且由于Hadoop平台是开源的,所以很多商用的大数据平台也是基于Hadoop搭建的,所以对于初学大数据的技术人员来说,从Hadoop开始学起是不错的选择。
当前Hadoop平台的功能正在不断得到完善,不仅涉及到数据存储,同时也涉及到数据分析和数据应用,所以对于当前大数据应用开发人员来说,整体的知识结构往往都是围绕大数据平台来组织的。随着大数据平台逐渐开始落地到传统行业领域,大数据技术人员对于大数据平台的依赖程度会越来越高。
1、 hadoop开源,更容易拿到源代码等,微软等相关产品都是闭源的。Hadoop和微软就好比安卓和ios。市面上华为,小米,三星基本上都在Google开源Android的基础上二次开发成自己的rom
2、 大数据现在是中国的十三五国家战略,大数据火啊,而Apache hadoop现在已经发展成一个庞大的生态圈。全球各地的开发者都在贡献者自己的代码。各个分支也是相当火爆,例如spark。
3、 现在普遍认为,大数据狭义的代表就是hadoop,其实并不是这样,现在大数据公司有很多:
首先呢?要知道什么是大数据
Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。
HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。
MapReduce是一个分布式计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。
我讲了这么多,Hadoop就是处理大数据其中的技术
hadoop可以说是大数据领域最早的处理框架了,起初仅包含了海量数据的存储HDFS,海量数据的处理MapReduce,分别是基于谷歌的两篇论文实现的,可以说hadoop是大数据开发的基础。其底层一些设计思想也影响后来几代大数据开发框架,像Spark就是为了解决Hadoop的MapReduce执行速度而诞生的,要想学习Spark、Flink,首先也是要学习Hadoop体系的。另外Hadoop体系的HDFS、Yarn等也在Spark集群、Flink集群有着广泛的应用。
大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网、云计算也都有密切的联系。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。
广义上讲,大数据是时代发展和技术进步的产物。Hadoop只是一种处理大数据的技术手段。
大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。
Hadoop是目前被广泛使用的大数据平台,本身就是大数据平台研发人员的工作成果,Hadoop是目前比较常见的大数据支撑性平台。
由于Hadoop是一个开源的大数据系统平台,所以你们听得最多。除了Hadoop平台外,还有其他系统平台。
所以,大数据不等于Hadoop,大数据与Hadoop也不是包含关系。