电影抓取工具:抓取100,000多个电影信息

电影的数据记录了观众的喜好及其对某些事物的态度。从相关网站(例如IMDb和Rotten Tomatoes)收集电影信息,将有助于电影行业中的数据分析和数据挖掘。一般而言,在某些情况下可以使用抓取的数据:

分析目标受众的特徵
获取公众意见以预测未来趋势
帮助广告推销

根据需要,我们还可以对电影数据做更多的事情。为了帮助您完成数据收集,本文将介绍如何从IMDb恐怖电影列表中抓取信息,包括导演信息,演员阵容以及其他一些重要信息。

在这种情况下,我将通过以下链接向您展示如何从IMDb中抓取134,555部恐怖电影信息:

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

该网络抓取工具的目标是找到在恐怖电影列表中列出的电影,获取导演信息,演员阵容以及其他一些重要信息。

在开始之前,请先在计算机上下载Octoparse V7以进行后续操作。此外,强烈建议学习使用Octoparse的基本逻辑。

让我们开始吧!

步骤1:在Octoparse内置浏览器中打开目标网站。

只需在高级模式下单击“ +任务”。

高级模式

然后,将URL粘贴到框中,然后单击“ 保存URL ” 按钮。

保存网址

步骤2:单击以构建一个任务来抓取电影信息。

在Octoparse内置浏览器中打开RUL之后,我们可以继续建立分页和循环项以获取数据。
只需在内置浏览器中单击“ next >> ” 元素,然后在“操作提示” 上单击“ 循环单击所选元素” 。

动作提示

我们可以看到分页已在工作流程中建立。

分页

如果您想让Octoparse更精确地识别您选择的元素,则只需修改XPath即可。如下图所示,Octoparse生成的XPath是 //DIV[@class='nav']/DIV[2]/A[2]. We’d better change it to //a[contains(text(), "Next »")].

XPath

在这种情况下,我们需要从影片列表中抓取数据,也就是说,我们可以直接创建一个循环项来提取数据。

选择浏览器上的“版块” 之一,Octoparse可以检测到所选博客中的所有数据字段。

单击选择

然后,选择“ 选择所有子元素” 。

Octoparse正在选择所有需要的数据,并以红色突出显示。选择“ 全选” 继续。

单击以选中“信息”部分

最后,我们选择“ 在循环中提取数据” 。

选择匹配的动作

现在,我们已经在Octoparse中完成了分页和循环项。我们可以在左侧看到任务的工作流程,并在右侧看到数据。

资料预览

步骤3:在Octoparse中清除数据。

提取数据之前,我们' d更好的清除数据,以做出最后的结果更好。只需单击即可删除不需要的字段,然后重命名所需的描述。

步骤4:提取资料

只需单击“提取数据”即可在本地获取数据。

 提取数据

由于本地提取利用您自己的计算机资源,例如CPU,互联网速度,因此其工作速度比使用Octoparse云提取要慢。

无论如何,在创建抓取工具后,您需要做的就是等待并在大约2小时内获取数据,超过100,000行电影数据。

最后结果

我想通过以上步骤,每个人,包括没有编程背景的人,都可以使用Octoparse V7轻鬆构建影片搜寻器,并获得超过100,000行的影片信息。但是,这不是最简单的方法。使用Octoparse V8可能会容易得多:

八度分析8:自动检测

总而言之,通过数据抓取,我们可以在线获取电影数据,且不会涉及法律问题。

除数据外,更重要的是关于您所学的技能,这对于进行市场研究,保持自我更新以及许多其他事情非常有用。


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章