随着大数据技术体系的逐渐成熟,大数据目前正处在落地应用的初期,整个大数据领域将陆续释放出大量的工作岗位,所以从事大数据相关岗位的发展空间还是比较广阔的。
大数据开发主要涉及到三个岗位,分别是大数据平台开发(研发级)、大数据应用开发和大数据分析(统计学和机器学习),不同岗位需要面对不同的岗位职责,也需要具备不同的知识结构。其实大数据运维岗位也涉及到一些开发方面的知识,但是开发方面的内容并不多。
大数据平台开发属于研发级岗位,主要的工作职责是完成大数据平台的开发,包括大数据平台功能模块的开发,比如完成分布式存储、分布式计算等主体框架功能的开发。从事平台开发的工程师往往对于基础知识的要求比较高,比如需要具备扎实的数学基础,同时要具备丰富的研发经验,对于系统级问题有丰富的处理方案。大数据平台开发岗位整体数量并不多,对于开发人员的要求往往也比较高。
在大数据技术落地应用的过程中,大数据应用开发和大数据分析岗位的需求量将会逐渐增大,所以对于初学者来说,从事大数据应用开发和大数据分析岗位是比较理想的选择。大数据应用开发需要从编程语言开始学起,目前从事大数据应用开发的语言包括Java、Python、Scala、R等,Java语言由于具备较为完善的语言生态,而且Hadoop平台自身也是Java语言开发的,所以Java语言往往是比较常见的选择。在学习Java语言的过程中,可以同步接触Hadoop平台,掌握Hadoop平台的整体结构,并且通过Java完成Hadoop平台的一些案例实验,进而逐步掌握在Hadoop平台下的Java应用开发。
大数据分析通常采用统计学分析方式和机器学习方式两种,统计学方式采用Python和R语言是不错的选择,而机器学习往往更多采用Python语言来实现,同时需要学习一系列算法的实现过程,包括Knn、决策树、支持向量机、朴素贝叶斯等等。所以,从事大数据分析需要具备一定的数学基础。
你好,我是一名自学大数据开发的研究生,马上就要找工作了,我是根据各个机构的学习路线图,总结自己的路线,自学出来的!我会分享出自己总结的知识点,可以去我主页看看。
我觉得大数据开发的技术点应该有:
基础是会点linux,java基础知识,mysql知识。
然后就是真正的大数据部分了,
掌握hadoop中的hdfs,mapreduce,yarn。
技术方面建议从hadoop开始学,包括hdfs.mapreduce.hive.yarn.spark.spark streaming等,最好是从论文看起,一开始就接受最正确的思路和知识。然后是看源代码,通过源代码能更深入理解大数据是怎么处理的。
经验方面还是需要结合实战,如果是自学,可以爬一些数据,做一些大数据的分析或机器学习。
如果是转行学习建议先去了解阿里云提供的数加平台,如果有时间可以考一个ACA(阿里云大数据助力工程师认证),然后了解一些搜索和存储、计算的工具就可以,主要在应用层面。
如果是科班出身,计算机专业毕业 可以更深入的学习分布式原理和数据处理及并发方面的知识。
大数据很宽泛,技术也很多 最重要的是结合某一具体领域来学习。