1
首先,大数据是一门非常庞杂的技术体系,其中涉及的组件数以百计,每个组件都掌握好几乎是不可能的,由于每个人的技术背景不一样,学习的着手点也不一样,所以必须设定一个目标。
对于有mysql,oracle等关系数据库基础的技术人员,本身具备了对数据的理解,学起来可能会更顺畅一些。可以从hadoop体系架构开始,首先了解每个组件的功能,再进行有针对性的深入学习。
对于没有数据库基础的人而言,建议先选择一款数据库,了解数据操作的基本知识,然后再着手学习hadoop,这样会好些。
2
目前能称之为大数据的就是几个互联网公司用的溜一点,其他都是幌子。但我认为学起来,用起来简单,吃透很难,没有数学功底,很难完成底层架构的修改。
3
学习和掌握大数据的门槛实际是还是很高的,一般建议先学习普通的关系型数据库,然后再学习大数据的操作和处理。
基础阶段:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis。hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、历史,HDFS工作原理,YARN介绍及组件介绍。
大数据存储阶段:hbase、hive、sqoop。
大数据架构设计阶段:Flume分布式、Zookeeper、Kafka。
大数据实时计算阶段:Mahout、Spark、storm。