1
首先,大数据是个概念而已,简单比喻可以这么说,hadoop是实现大数据分析的一种架构;其实有点类似建设银行与银行的概念,建设银行是银行的一种;在没有hadoop之前我们处理大数据也是可以的,我们可以自己写程序去处理,Java,Python等语言都可以去实现大数据处理,而hadoop是Java里面沉淀出来的一个架构,里面就有个生态围绕着它完善,所以喊着喊着,好多人一说到大数据就会说到Hadoop,而Hadoop里面又有原生apache,cdh,hdp等厂商开源版。
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,你可以理解它是Hadoop里面的一个补充功能。
2
大数据其实是一个比较大、比较广泛的概念,而Hadoop是大数据处理的一个功能比较完备的批量数据存储、计算和分析框架,spark可以理解为一个内存计算框架,现在很多主流大数据平台都是在Hadoop基础上进行优化和二次开发,spark一般会集成到Hadoop进行流式数据处理(spark streaming)
3
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算