本文介绍:
1.为什么人们会刮擦Craigslist
2.刮Craigslist是否违法
3.如何从Craigslist抓取数据
4.使用Octoparse抓取Craigslist数据
5.结束语
##人们为什么会采集Craigslist?
Craigslist收集广泛的信息。有些浏览器可能不满意, 出于各种原因,他们从Craigslist 抓取数据。以下是其中的典型4个。
1>个人可以提取有关房屋,汽车,计算机等的第一手信息。当导出到excel工作表时,它们更容易浏览和比较数据。
2> 与Yellowpages和Yelp相似,Craigslist充满了潜在的潜在业务来产生收入。毫无疑问,线索很重要,特别是合格的线索。这可能是Craigslist吸引如此众多人的原因。
3> 通过转售商品获得利润。利用结构良好的抓取数据,人们可以更好地分析价格并设置新的转售价格。但是,转售实际上是在灰色区域,因此这可能不是一个很好的尝试。有时它是有利可图的,但后果可能并不令人愉快。
4> 监控竞争对手。Craigslist充满了宝贵的信息,涵盖了许多行业,人们可以在其中跟踪竞争对手。实时了解其策略将帮助企业在竞争中获得优势。
##采集Craigslist是否非法?
作为目前最受欢迎的网站之一,Craigslist被证明是最困难的网站之一。原因很简单:与向用户提供API来获取数据的网站不同,Craigslist API并非旨在提取数据。相反,它用于在Craigslist上发布数据。
就像Facebook和LinkedIn一样,Craigslist的用语清楚地表明,禁止使用任何类型的机器人,蜘蛛,脚本,刮板,爬虫。而且他们不允许人们在网站上窃取用户的个人信息。
Craigslist已使用各种技术和法律方法来防止因商业目的而报废。实际上,在2017年4月,Craigslist对3 Taps Inc提起了6050万美元的判决,该公司被指控抄袭房地产清单。几个月后,Craigslist再次与Instamotor达成3,100万美元的判决,声称Instamotor的汽车上市服务是从Craigslist中删除的,他们向craigslist用户发送了未经请求的电子邮件以进行促销。
然而,在一篇题为作为上述关于网页抓取的10个冷门知识,这是非法的,如果你采集利润机密信息,但如果你刮公共数据谨慎自用,那就无所谓了。
##如何从Craigslist抓取数据?
如果您是编码人员,则可以按照此Python教程中有关刮除East Bay Area Craigslist的内容进行操作。可以修改本教程中的代码以从任何区域,类别,属性类型等中提取。或者您可以查看本Scrapy教程, 以学习在纽约抓取Craigslist的“建筑与工程”工作并将数据存储到CSV中文件。
但是以上教程的问题是显而易见的:对于非编码人员来说,它们过于复杂。如果您的编码经验为零,并且想要一种简单,快速的方法,那么这里有个使用的自动数据抓取工具,例如Octoparse。
借助数据抓取的功能,我们可以在单击内从Craigslist列表中提取所需的所有信息,并将其轻鬆导出到Excel,CSV,HTML和/或数据库中。我将在3个步骤中引导您完成如何提取Craigslist房地产清单。
##使用Octoparse进行Craigslist数据抓取
在这种情况下,让我们刮擦在芝加哥出售的房屋/房地产。首先,请安装Octoparse 并在计算机上启动它。
步骤1:输入目标Craigslist URL来构建搜寻器
在框中输入列表URL,Octoparse将开始自动检测页面数据。如您所见,要提取的数据以红色突出显示,并且下面的预览部分使您可以预编辑数据字段。
步骤2:保存提取设置
确保数据字段是我们想要的之后,单击“保存设置”,Octoparse将在左侧自动生成抓取工作流程。
步骤3:运行提取以获取数据
最后,您只需要保存搜寻器并单击“运行”即可开始提取。刮涂过程可以在5分钟内完成。
##结束语:
请注意,即使本文指导您提取Craigslist数据,您也应始终遵守其服务条款并以适当的频率进行抓取。
数据抓取工具不仅可以抓取所有Craigslist列表,还可以在许多情况下使用,包括市场营销,电子商务和零售,数据科学,股票和金融研究,数据新闻,学术,风险管理,保险等等。您可以在本文中阅读有关Web抓取在商业中的用途的信息:25种通过Web数据提取促进业务发展的技巧。