大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
在谈论什么是大数据之前,不妨先看看大数据四个特征。一是数据体量巨大(Volume),这个很容易理解,最初个人电脑软盘或硬盘容量以KB或MB为单位,现在则以GB和TB为单位,数据容量提高了一千倍至十亿倍。二是数据类型繁多(Variety),最初数据以文字或结构化数据库的形式存储,现在音频、视频、图片等被广泛应用,非结构化数据越来越多。三是价值密度低(Value),价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。四是处理速度快(Velocity),这是大数据区分于传统数据挖掘的最显著特征,大容量、低密度数据必然要求高速处理以提取有用的信息。
由于互联网公司往往储存有大量的用户网购、用户出行、用户搜索、用户浏览等信息,通过对这些信息快速处理和聚合分析,能够判断用户未来几天甚至未来几个月的可能行为,为互联网公司提供智能化推荐、供应链管理、价格优化、欺诈行为判断等更优的服务。在利用大数据时候,除了前面所述的四个特征外,数据还必须具有关联性:数据来自同一类型人物、数据来自同一时间段、数据来自同一个产品等等。
很遗憾,作为一个非技术人员,只能谈一下大数据的应用方面,具体的概念可度娘。互联网企业更多需要的是大数据应用服务。企业最喜欢的部门当然是营销部门啦,大数据说白了就是营销部门的数据军事。最近几年,数据被记录成为中国大数据发展的一项优势资源,记录的数据库可以用来辅助企业决策。
举个例子,《春风十里》电视剧的线上互动分析。本人曾有幸参加了某新闻资讯网站内容运营总监的分享会。在电视剧上线之初,需要大量推广话题,引起用户讨论、参与到电视剧关注中。在本剧上映前十集时,网站内容运营总监通过搜集批量的网站讨论话题,发现围绕电视剧产生了“秋水”、“红烧肉”两个关键词。秋水是电视剧主角,成为关键词很正常,但是红烧肉这是一个意想不到关键词。为抓住热点,总监立马在线上做起了有关“红烧肉”的话题运营,数据效果非常好,而且意外延展到平台的美食(红烧肉的做法、红烧肉哪里最好吃、国外有没有红烧肉等话题),通过数据分析,让传播话题更具有数据支撑。
大数据一方面是技术,另一方面是运用。技术方面如果你不了解IT发展路线,就不会体验到其中的兴奋。大数据平台是基于X86硬件环境架构的,一台传统的小型机可以买80台X86服务器,算上存储设备,成本下降很多。而且可以基于开源软件搭建全套免费的数据仓库和分析系统。经众多落地项目测试,大数据平台的性能并不比IOE的强,但是价格不是一个数量级的,这使得小企业也可以分析上百万的大规模数据。
另一方面是运用,这个已经有人了。另外,互联网公司说是搞大数据的,并不新奇,因为他们本来就应该是搞这个的。传统电信、银行有大数据案例,这才是亮点,值得学习。
太过专业的术语,可能没有接触过大数据或者想学习大数据的初级学员很难理解,大数据从最简单的词眼可以理解就是大的数据,那么我们生活中肯定都会接触到Byte、KB、MB、GB甚至TB这样的数据单位(kb、mb、gb、tb、pb、eb、zb、yb)。举一些形象的数据量:一张电报:100字节,一部微型小说1MB,一卷大型数字磁带100G,五万棵树制成的纸1TB。那么TB、PB级以上的数据就可以称之为大数据。
随着互联网的发展,我们的生活越来越离不开互联网,而大数据为众多互联网企业或业务提供了统计、预测分析、决策等服务。如:今日头条精准的信息推送等。大数据人才严重短缺情况不断增长,也说明了大数据对于未来互联网、物联网的重要性。
放一张我保存的图吧: