1
spark是内存计算框架,而mr是离线计算框架。因此,与mr相比,spark计算速度更快,尤其是迭代运算。spark进行计算时,会将中间结果缓存在内存里,当需要再次使用时,不需要从磁盘读取数据。而mr需要将中间结果写入磁盘,再次使用时需要从磁盘重新读取。磁盘i/o通常十分耗时。
除了离线计算速度更快以外,spark比mr适用场景更多,spark的streaming模块可以实现实时或近线流式计算。
此外,sparksql可以让你方便的使用sql来分析数据。
2
你好,很开心收到来你的问题。
希望我的矿可以帮到你,欢迎留言评论或私信交流。