从就业前景的角度来讲,大数据数据仓库方向要比大数据流式处理方向更好。大数据流式处理,本质就是实时流式数据处理,既对数据进行实时加工和输出。数仓研发同学平时在进行数据处理时,会用到大数据流式处理技术。整体来说,大数据数据仓库包含大数据流式处理,从而大数据数据仓库的就业选择方向要比大数据流式处理更广。
我之前岗位就是数据研发,本质就是结合数据仓库模型,对业务数据进行标准化处理和数据模型构建。业务数据最开始来源线上业务用户的行为数据,通过数据采集,存储到分布式文件系统上,然后使用Hive对数据进行加工。数据研发,整体可以分为离线数据研发和实时流式数据研发,这两个方向其实都需要使用到大数据数据仓库理论对数据建模。
我在进行实时数据研发的时候,主要使用到Flink技术来对流式数据进行处理。其实处理的同时,整体的设计思想就是参考数据仓库设计理论。对流式数据,怎么样处理,才能构建出公共层流式数据,增强数据的可用性,减少资源重复计算,计算出的实时指标,能否做到指标口径统一,如果构建流式数据应用层等。流式数据处理也要参考数据仓库理论来进行设计。
大数据的定义
为什么Oracle Cloud适用于大数据?
面向大数据的Oracle云平台通过快速无缝地将新见解集成到所有部门的生产的各个方面,以所有可以理解的语言向所有员工提供,从而释放数据的价值。
究竟什么是大数据?
要真正了解大数据,有一些历史背景是有帮助的。这是Gartner的定义,大约在2001年(这仍然是定义):大数据是包含更多种类的数据,其数量越来越大,速度也越来越高。这被称为三个Vs.
很多公司在大数据部门有这样明确的岗位划分,数据仓库主要是负责公司统一的数据存储,包括业务数据,日志数据,作为公司统一的数据仓库,需要到各业务部门深入了解业务和其原始的业务数据意义,然后做数据同步,etl,对数据建立事实维度表,为各业务部门提供基于主题的分析支持。这个岗位大约有超过一半以上的时间是在了解各业务部门的业务内容,剩下的就是对数据做清洗,转换,建模。
流数据处理的话更多是针对业务需求去完成业务功能或辅助业务功能,比如,我用spark streaming等完成公司网站流量或其他监控功能,storm作为一个技术参与完成实时推荐,两种岗位没有优劣,看您的兴趣在哪。