Storm 和 Spark大数据处理方案有什么区别?

1

最近公司做流式实时处理的业务比较多,对这两个流式处理的大数据组件做了不少研究,非常荣幸一起来交流这个问题

首先说一下什么是流式计算

特点

数据实时产生

数据实时传输(实时收集)

数据实时计算

2

  Storm:实时处理领域的Hadoop

  作为一套专门用于事件流处理的分布式计算框架,Storm的诞生可以追溯到当初由BackType公司开发的项目——这家市场营销情报企业于2011年被Twitter所收购。Twitter旋即将该项目转为开源并推向GitHub平台,不过Storm最终还是加入了Apache孵化器计划并于2014年9月正式成为Apache旗下的顶级项目之一。

  Storm有时候也被人们称为实时处理领域的Hadoop。Storm项目的说明文档看起来对这种称呼也表示认同:“Storm大大简化了面向庞大规模数据流的处理机制,从而在实时处理领域扮演着Hadoop之于批量处理领域的重要角色。”

  为了达成上述目标,Storm在设计思路中充分考虑到大规模可扩展能力、利用一套“故障快速、自动重启”方案为处理提供容错性支持、从而有力地保证了每个元组都能切实得到处理。Storm项目默认为消息采取“至少一次”的处理覆盖保障,但用户也能够根据需要实现“仅为一次”的处理方式。

  Storm项目主要利用Clojure编写而成,且既定设计目标在于支持将“流”(例如输入流)与“栓”(即处理与输出模块)结合在一起并构成一套有向无环图(简称DAG)拓扑结构。Storm的拓扑结构运行在集群之上,而Storm调度程序则根据具体拓扑配置将处理任务分发给集群当中的各个工作节点。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章