回想自己学大数据的时候,现在看来也是一地鸡毛。总结如下:
大数据的目的大部分就是数据分析,挖掘现在没有发现的价值,或者是监控系统稳定。
现有大数据的归类就是离线和实时,使用这两种方式去处理数据就是数据分析。
既然是大数据那么单机是不能完成计算的,那么就需要分布式技术。分布式技术包含了很多内容,比如分布式计算,分布式的acid ,分布式缓存,分布式存储,网络通信等等。为啥batj 这种公司招技术专家都会指明是存储,缓存,计算等等方面的,因为分布式的东西太多了,没有好的底子是没法从现有问题中找到解决方案的。
单从大数据工具来说,无非就是hadoop hive sqoop spark flink storm flume kafka 等等,这些东西要么就是分布式中间件,要么是离线计算,实时计算框架,数据同步工具,每一个学会了只是学会了一种分析类型的解决方案。在工作中,不仅仅是这些。如果就是为了给一个分析系统做报表这些,基本使用上面列举的框架就可以解决问题。但是大数据后面的技术就是分布式问题和并发问题。