大数据应用工程师是做什么的?

此时一位码农路过,并留下了自己的见解。

大数据应用工程师,顾名思义,就是搞大数据的,也就是在巨大的数据量面前进行数据处理,然后筛选出有用的东西。数据工程师日常都是按照几个步骤来处理数据的,从数据上游到数据下游,大致可以分为:数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面。具体如下:

  1. 数据采集。在公司一些应用中,多多少少都会在一些关键的地方进行数据买点,记录下日志。然而大多数时候这些日志都是分散的,所以需要使用工具来把这些分散的数据聚合起来。
  2. 数据清洗。原始记录下来的数据都是千奇百怪的,对于这样的数据来说,其实还不可用,所以要对数据进行清洗。一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤;而有些字段是多余的,为了后续的数据存储节省开销,需要把这些冗余的字段删除掉;还有一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。
  3. 数据存储。清洗后的干净数据就需要存储到数据仓库中。具体使用哪种数据存储引擎,就需要看下游取数据的时候对数据实时性的要求。如果实时性要求比较高的话,一般会使用kafka进行数据存储。
  4. 数据分析统计。这方面的工作也要部分公司管其叫BI,通过去数据存储引擎那里取出数据,对数据进行各方面的统计和分析或者是做成报表。
  5. 数据可视化 。也就是把搜集的数据进行可视化处理,根据不同要求,可视化的图形也不尽相同。最后根据这些可视化的数据,进行下一步的决策。

以上便是大数据工程师的日常工作。

关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章