就以问答为例说说大数据的故事。以下说的数字都不是真实的,都是我的假设。
比如每天都有1亿的用户在问答上问题或者阅读问答。
每天产生的内容
假设平均有1000万的用户每天一个问题。一个问题平均有1000的字, 平均一个汉字占2个字节byte,三张图片, 平均一帐图片300KB。那么一天的数据量就是:
文字总量:10,000,000 * 1,000 * 2 B = 20 GB
图片总量: 10,000,000 * 3 * 300KB = 9 TB
这是我通常与想要了解大数据的人进行对话:
问:什么是大数据?
答:大数据是描述庞大数据的术语。
问:现在,大数据有多大?
答:如此庞大,以至于无法用常规工具处理?
1、大数据的概念:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
2、大数据有哪些技术:
基础:
我有幸做了有五六七八年的大数据吧,谈谈自己的看法。简单来说,就是现在各个APP,网站产生的数据越来越多,越来越大,传统的数据库比如MySQL Oracle之类的,已经处理不过来了。所以就产生了大数据相关的技术来处理这些庞大的数据。
第一,首先要把这些大数据都可靠的存储起来,经过多年的发展,hdfs已经成了一个数据存储的标准。
第二,既然有了这么多的数据,我们可以开始基于这些数据做计算了,于是从最早的MapReduce到后来的hive,spark,都是做批处理的。
第三, 由于像hive这些基于MapReduce的引擎处理速度过慢,于是有了基于内存的olap查询引擎,比如impala,presto。
第四,由于批处理一般都是天级别或者小时级别的,为了更快的处理数据,于是有了spark streaming或者flink这样的流处理引擎。
大数据技术可以定义为一种软件应用程序,旨在分析,处理和提取来自极其复杂的大型数据信息,而传统数据处理软件则无法处理。
我们需要大数据处理技术来分析大量实时数据,并提出预测和方案以减少未来的风险。
在类别中的大数据技术分为两大类型:
1.运营大数据技术
2.分析大数据技术
首先,运营大数据与我们生成的常规日常数据有关。这可能是在线交易,社交媒体或特定 组织的数据等。
大数据是什么?
投资者眼里是金光闪闪的两个字:资产。
比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展?
如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据是根据总体数据从整体上去分析总结某些事物品或现象的原因,从而发现问题及寻找解决问的一种数据技术手段 。包括大数据收集技术及宏观数据分析技术
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等
大数据技术有:
一、大数据基础阶段
大数据基础阶段需要掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis等;
二、大数据存储阶段
大数据的本质就是利用数据实现对业务的洞察和智能化。
第一步:大数据缘起于海量有价值的数据
智能手机都是万能传感器,随着智能手机的普及和应用的繁荣,我们每个人都被数字化了。比如我们的财务情况、每天的活动位置、我们联系了那些人、我们购物的情况、教育情况等一系列的数据都被各个公司收集并存储下来。一个人的信息可能只能用来诈骗,但是很多人的信息汇聚到一起,就产生了无穷的价值。为了充分的利用这些数据,挖掘其中的价值并获取收集,大数据技术应用而生。
第二步:海量数据怎么处理
数据量大到数据库存不下了,就开始有大数据技术出现。
大数据技术,包括了大数据采集技术、存储技术、计算技术、分析挖掘技术等。其实就是要把数据接进来、存下来、用得上。为了应对数据的洪流,数据采集、存储和计算大多采用并行技术,也就是很多台服务器协同处理的方式保证数据能够快速的得到处理,并将结果应用到业务系统中。代表性技术就是HDFS、MapReduce、Hive、Spark、Flink等技术;其中Spark、Flink等技术为了加速还大量的利用了内存。
上述技术一下子就搞定了结构化和半结构化数据的大规模分析,然而视频、语音等非结构化数据处理起来还是很难,人工智能技术应用而生,人脸识别、语音识别、机器翻译等都是非常典型的应用,这些技术的出现,都是数据量积累到一定程度、计算能力达到一个较高的阶段才出现的技术,当然也算是大数据的一种。其实人工智能技术也没有那么神秘,未来一定是飞入寻常百姓家的普遍性技术。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等
大数据技术有:
一、大数据基础阶段
大数据基础阶段需要掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis等;
二、大数据存储阶段