电影抓取工具：抓取100,000多个电影信息-58码农网

电影的数据记录了观众的喜好及其对某些事物的态度。从相关网站（例如IMDb和Rotten Tomatoes）收集电影信息，将有助于电影行业中的数据分析和数据挖掘。一般而言，在某些情况下可以使用抓取的数据：

分析目标受众的特徵
获取公众意见以预测未来趋势
帮助广告推销

根据需要，我们还可以对电影数据做更多的事情。为了帮助您完成数据收集，本文将介绍如何从IMDb恐怖电影列表中抓取信息，包括导演信息，演员阵容以及其他一些重要信息。

在这种情况下，我将通过以下链接向您展示如何从IMDb中抓取134,555部恐怖电影信息：

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

该网络抓取工具的目标是找到在恐怖电影列表中列出的电影，获取导演信息，演员阵容以及其他一些重要信息。

在开始之前，请先在计算机上下载Octoparse V7以进行后续操作。此外，强烈建议学习使用Octoparse的基本逻辑。

让我们开始吧！

步骤1：在Octoparse内置浏览器中打开目标网站。

只需在高级模式下单击“ +任务”。

然后，将URL粘贴到框中，然后单击“ 保存URL ” 按钮。

保存网址

步骤2：单击以构建一个任务来抓取电影信息。

在Octoparse内置浏览器中打开RUL之后，我们可以继续建立分页和循环项以获取数据。
只需在内置浏览器中单击“ next >> ” 元素，然后在“操作提示” 上单击“ 循环单击所选元素” 。

我们可以看到分页已在工作流程中建立。

如果您想让Octoparse更精确地识别您选择的元素，则只需修改XPath即可。如下图所示，Octoparse生成的XPath是 //DIV[@class='nav']/DIV[2]/A[2]. We’d better change it to //a[contains(text(), "Next »")].

在这种情况下，我们需要从影片列表中抓取数据，也就是说，我们可以直接创建一个循环项来提取数据。

选择浏览器上的“版块” 之一，Octoparse可以检测到所选博客中的所有数据字段。

然后，选择“ 选择所有子元素” 。

Octoparse正在选择所有需要的数据，并以红色突出显示。选择“ 全选” 继续。

最后，我们选择“ 在循环中提取数据” 。

现在，我们已经在Octoparse中完成了分页和循环项。我们可以在左侧看到任务的工作流程，并在右侧看到数据。

步骤3：在Octoparse中清除数据。

提取数据之前，我们' d更好的清除数据，以做出最后的结果更好。只需单击即可删除不需要的字段，然后重命名所需的描述。

步骤4：提取资料

只需单击“提取数据”即可在本地获取数据。

由于本地提取利用您自己的计算机资源，例如CPU，互联网速度，因此其工作速度比使用Octoparse云提取要慢。

无论如何，在创建抓取工具后，您需要做的就是等待并在大约2小时内获取数据，超过100,000行电影数据。

我想通过以上步骤，每个人，包括没有编程背景的人，都可以使用Octoparse V7轻鬆构建影片搜寻器，并获得超过100,000行的影片信息。但是，这不是最简单的方法。使用Octoparse V8可能会容易得多：

总而言之，通过数据抓取，我们可以在线获取电影数据，且不会涉及法律问题。

除数据外，更重要的是关于您所学的技能，这对于进行市场研究，保持自我更新以及许多其他事情非常有用。

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

HBO Max vs.Netflix：当你负担不起两者时如何选择

课内笔记整理---作业系统实务(资安相关篇)

excel vba捞网页数据问题

热门文章

1电影抓取工具：抓取100,000多个电影信息

2React的props与state(上)

3[笔记] VsCode 使用 git 上传

4JS30 Day 19 - Webcam Fun学习笔记

5[笔记]如何关闭浏览器的HSTS避免强制转https妨碍开发