Spark和Hadoop对于大数据的关系?

1

1)hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop实现了一个分布式文件系统HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算

2)hadoop优点

Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

可靠性: Hadoop将数据存储在多个备份,Hadoop提供高吞吐量来访问应用程序的数据。

2

Hadoop生态



Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。

Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。 它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。 库本身不是设计用来依靠硬件来提供高可用性,而是设计为在应用程序层检测和处理故障,因此可以在计算机集群的顶部提供高可用性服务,而每台计算机都容易出现故障。

1、hadoop1.0时期架构

3

早期Hadoop指的hdfs+mapreduce,后来衍生为整个大数据生态。

大数据生态从底层往上是分布式文件存储,分布式数据库,分布式计算(实时+离线),检索,资源管理,任务调度,以及周边工具。

从上可以看出,spark只是Hadoop生态中的一个小分支。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章