如何学习大数据处理?

1

随着当今信息化时代的快速发展,从IT时代已经来到了DT时代。其中大数据则是扮演着至关重要的角色,因此有越来越多的人接触和学习到大数据,那怎么能学习好大数据处理呢,具体内容如下:

1.打牢扎实的基本功

万丈高楼也都是从地基打起的,开始学习大数据处理之前,掌握扎实的基本功是非常重要的,它将会决定你未来的高度。基本功包括掌握Python,JAVA等支持大数据的编程语言、Linux操作系统、常用的主流数据库以及达标的高数和英语水平。

2.了解大数据相关技术

了解大数据处理的工作运行机制,hadoop、spark、strom等关于大数据主流的框架以及相关的算法软件。

2

大数据的学习,最难的就是入门,如果传智播客给到学生建议的话,就是好好学习sql,要能熟练使用,并且多学习大数据处理的相关思想;下面给有需要的小伙伴罗列一个2019年全套的大数据学习路线图:

大数据处理相关技术,所需要掌握的是Java语言和Linux操作系统。这两个是基础,学习顺序的话不分先后。技术方面最快的学习路径就是直接学习相关的主流框架。很多人提到框架的话,就会觉得很难。其实我们只要是知道相关框架的调用方法,就会轻松很多。

Hadoop:

在接触hadoop之前,大家需要有一定的Java基础。为此给自学的小伙伴提出的建议是首先学习Linux,然后学习adoop的生态系统。在学习Hadoop的第一个阶段就是可以熟练的搭建伪分布式集群以及完全分布式集群。也就是先让hadoop的环境搭建起来,能正常运行wordcount程序,我们才可以接下来的分析hadoop生态系统。

3

感请。

学习大数据这个问题面前很大,我想你讲的是大数据开发的技术。

1.首先是编程语言:大数据面比较广,但是现在主流的框架还是比较集中:hadoop,spark,strom等。主要支持语言有Python,JAVA,scala等。如果没有开发经验建议学习Python,易学,在后续的数据分析深度学习等方面也比较好过度。

2.如何学习:学习一项技术的目的是解决问题。如果想快速掌握,建议先概括的了解大数据技术的边界和一些应用场景,然后结合具体问题进行实践,然后再总结复盘。

3.如果解决具体问题:首先要先搞清楚问题的核心,明确目标,以及衡量解决问题的主要指标。然后根据指标要求选择技术方案,最后安排计划。切记求大求全,重新发明轮子。

4

谢谢!这是一个新鲜课题,我答复不了,谢谢。

5

很高兴你的问题

我是用Python来进行数据处理

首先,我们拿到一个数据,使用jupyter notebook来打开这个数据,这里我使用pandas来进行数据的导入,请注意我这里的数据格式为csv的,如果不是请换成别的格式即可。

导入数据后,我们就需要对它进行筛选、进行洗涤。比如说:数据里有一些空值、一些0值,我们要知道有多少,对整体有没有影响,那么我们就需要如下操作。lineitems_sample.isnull().sum()这句是用来统计空值总数的;那么,如果我们要统计下为0值的个数,我们可以这样,(lineitems_sample<0).sum()。这里解释下:

lineitems_sample

是一个csv格式的数据名。当然这只是对数据进行了简单处理(清洗),如果我们需要对数据进行聚类、降维那就需要了解更多的操作。根据具体的要求来进行相关性操作。这里我使用PCA来进行降维。

我想说Python可以很好的完成数据处理任务,一个是它开源,二个是支持库很多,随拿随用很方便!

6

那就需要进去大公司网站了。实习才能学习到实用的。

7

大数据是个通用说法。所有领域都有自己的大数据定义。 大数据处理是在数据池中挖掘有用数据,通过概率分析,做为决策依据。 对于大数据处理有很多流派,但对于非窄带行业分析只是做到初步的塞选完成量的基础数据分析。 对于有用价值提取还是需要专业领域知识。 所以如何学习大数据处理,首先要看自己的定位。 是做基础数据积累处理,还是行业深度分析处理,如果想深度处理,那必须有一定的行业知识背景和受众群体定位,对要处理的领域有一定了解。这样才能有针对性。 这样的答复不知道能不能帮到您,需要具体的探讨可以私信我。我做的领域也是做大数据分析,但属于窄带行业的分析。针对的客户也是细分行业客户。

8

谢谢信任。

学习大数据,分很多层次,看你自己的要求。如果想学到自己能应用起来,能编程能采集。那投入的心思和金钱都不少。

建议循序渐进,

1.先找慕课中的一些课程先学习。推荐个超级APP:学习强国,里面的慕课全免费,很多大数据的课程。

学完这些基础后,自己心里会有大概的形象认识,之后再做判断是否进一步学习。

9

刚好本人在一线互联网公司做大数据、算法方面工作,希望我的能对您有帮助。

大数据重点在“大”字,一般数量级都百亿甚至千亿以上。传统的数据处理方法已经无法适用。

因此要学习大数据处理技术,要从两方面着重学习。

第一方面,分布式的数据处理框架。由于数据量大,单个物理机是无法完成数据处理任务的,因此需要用分布式数据处理框架,比较常见的例如hadoop、spark等等。

另一方面,数据处理是为了获取其中的信息,因此一些常见的数据处理算法也是必要的。例如数理统计、逻辑回归、pca、聚类、分类回归树、深度学习等等。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章