电影的数据记录了观众的喜好及其对某些事物的态度。从相关网站(例如IMDb和Rotten Tomatoes)收集电影信息,将有助于电影行业中的数据分析和数据挖掘。一般而言,在某些情况下可以使用抓取的数据:
分析目标受众的特徵
获取公众意见以预测未来趋势
帮助广告推销
根据需要,我们还可以对电影数据做更多的事情。为了帮助您完成数据收集,本文将介绍如何从IMDb恐怖电影列表中抓取信息,包括导演信息,演员阵容以及其他一些重要信息。
在这种情况下,我将通过以下链接向您展示如何从IMDb中抓取134,555部恐怖电影信息:
https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt
该网络抓取工具的目标是找到在恐怖电影列表中列出的电影,获取导演信息,演员阵容以及其他一些重要信息。
在开始之前,请先在计算机上下载Octoparse V7以进行后续操作。此外,强烈建议学习使用Octoparse的基本逻辑。
让我们开始吧!
步骤1:在Octoparse内置浏览器中打开目标网站。
只需在高级模式下单击“ +任务”。
然后,将URL粘贴到框中,然后单击“ 保存URL ” 按钮。
保存网址
步骤2:单击以构建一个任务来抓取电影信息。
在Octoparse内置浏览器中打开RUL之后,我们可以继续建立分页和循环项以获取数据。
只需在内置浏览器中单击“ next >> ” 元素,然后在“操作提示” 上单击“ 循环单击所选元素” 。
我们可以看到分页已在工作流程中建立。
如果您想让Octoparse更精确地识别您选择的元素,则只需修改XPath即可。如下图所示,Octoparse生成的XPath是 //DIV[@class='nav']/DIV[2]/A[2]. We’d better change it to //a[contains(text(), "Next »")].
在这种情况下,我们需要从影片列表中抓取数据,也就是说,我们可以直接创建一个循环项来提取数据。
选择浏览器上的“版块” 之一,Octoparse可以检测到所选博客中的所有数据字段。
然后,选择“ 选择所有子元素” 。
Octoparse正在选择所有需要的数据,并以红色突出显示。选择“ 全选” 继续。
最后,我们选择“ 在循环中提取数据” 。
现在,我们已经在Octoparse中完成了分页和循环项。我们可以在左侧看到任务的工作流程,并在右侧看到数据。
步骤3:在Octoparse中清除数据。
提取数据之前,我们' d更好的清除数据,以做出最后的结果更好。只需单击即可删除不需要的字段,然后重命名所需的描述。
步骤4:提取资料
只需单击“提取数据”即可在本地获取数据。
由于本地提取利用您自己的计算机资源,例如CPU,互联网速度,因此其工作速度比使用Octoparse云提取要慢。
无论如何,在创建抓取工具后,您需要做的就是等待并在大约2小时内获取数据,超过100,000行电影数据。
我想通过以上步骤,每个人,包括没有编程背景的人,都可以使用Octoparse V7轻鬆构建影片搜寻器,并获得超过100,000行的影片信息。但是,这不是最简单的方法。使用Octoparse V8可能会容易得多:
总而言之,通过数据抓取,我们可以在线获取电影数据,且不会涉及法律问题。
除数据外,更重要的是关于您所学的技能,这对于进行市场研究,保持自我更新以及许多其他事情非常有用。