由于“大数据”这个短语风靡,所以与数据相关的一切都出现了。 Web抓取,Web抓取,Web挖掘,数据分析,数据挖掘等。这些词语可以互换使用,这使得数据领域对许多人来说更加混乱。全面了解这些术语对于各个企业在残酷的营销行业中提供信息是必要的。
什么是数据收集?
数据收集意味着从在线资源获取数据和信息。它通常可与网络抓取和数据提取。收集是一个农业术语,意味着从田地收集成熟的作物,涉及收集和搬迁的行为。数据收集是从目标网站中提取有价值数据并以结构化格式将其放入数据库的过程。
要进行数据收集,您需要使用自动爬虫来解析目标网站,捕获有价值的信息,提取数据并最终导出为结构化格式以供进一步分析。因此,数据收集不涉及算法,机器学习和统计。相反,它依赖于像Python,R,Java这样的计算机编程来运行。此外,数据收集更多的是準确性。
有许多数据提取工具和服务提供商可以为您进行网络收穫。 Octoparse是最好的网络抓取工具。无论您是第一次自我启动还是经验丰富的程序员,它都是从互联网上获取数据的最佳选择。
什么是数据挖掘?
数据挖掘经常被误解为获取数据的过程。收集数据和挖掘数据之间存在很大差异,即使它们都涉及提取和获取的行为。数据挖掘是发现您从大量数据生成的基于事实的模式的过程。数据挖掘不仅仅是获取数据并理解数据,而是跨学科的,它集成了统计学,计算机科学和机器学习。
着名的剑桥Analytica丑闻,他们收集了超过6000万Facebook用户的信息,并根据他们在Facebook上的身份和活动孤立出那些不确定他们的选票的人。然后,剑桥分析公司採用“心理学微目标”策略用煽动性的信息轰炸他们以改变他们的选票。它是数据挖掘的典型但有害的应用。数据挖掘发现他们是谁,他们做了什么,并作为回报,帮助实现目标。这听起来像魔术,但很複杂。
数据挖掘有四个关键应用。第一个是分类。就像单词暗示的那样,数据挖掘用于将事物或人员分成不同的类别以供进一步分析。例如,银行通过应用程序建立分类模型。他们收集了数以百万计的申请以及每个人的银行对账单,职称,婚姻状况,学校文凭等,然后使用算法来计算和决定哪个应用程序比其他应用程序更具风险。也就是说,在您填写申请表时,他们已经知道您所属的类别,以及适用于您的贷款。
回归:
回归用于根据数据集中的数值预测趋势。它是变量之间关係的统计分析。例如,您可以根据历史记录预测特定区域内犯罪发生的可能性。
聚类:
群集是基于相似的特徵或值对数据点进行分组。例如,亚马逊将类似产品组合在一起,根据每个项目的描述,标籤,功能为客户识别更容易。
异常检测:
它是检测异常行为的过程,也称为异常值。银行使用此方法来检测不适合您的正常交易活动的异常交易。
协会学习:
关联学习回答了“一个特徵的价值与另一个特徵的价值如何相关?”的问题。例如,在杂货店,购买汽水的人更有可能一起购买Pringles。市场购物篮分析是关联规则的流行应用。它可以帮助零售商识别消费产品的关係。
这四个应用程序构建了数据挖掘的支柱。可以说,数据挖掘是大数据的核心。数据挖掘过程也被认为是来自数据的知识发现(KDD)。它阐明了数据科学的概念,有助于研究和研究知识。数据可以是结构化的或非结构化的,并且分散在因特网上。真正的力量是每个部分被分组,在不同类别之间分开,因此我们可以绘製模式,预测趋势并检测异常。
资源:Data Harvesting & Data Mining: What's the Difference