在几分钟内写好一个URL爬虫

从任何网站获取URL都很容易。Control + C和Control + V,完成!但是,如果您需要为网站收集成千上万个URL,该怎么办?我认为我们不愿意一遍又一遍地进行複制粘贴。在这种情况下,必须使用URL抓取工具。

您可能想知道为什么还要收集URL。在大多数情况下,人们将收集例如图像,视频或广告系列链接以建立内容汇总站点以供参考。当然,这可能会带来许多潜在的商业公司机会。

在本文中,我想向您展示如何在几分钟内无需编码即可构建URL爬虫。阅读全文后,每个人都可以将其确定下来。

步骤1:在计算机上安装Octoparse。

在这种情况下,我将使用Octoparse演示如何构建URL爬虫。如果您想继续学习本课程,只需下载Octoparse即可。

步骤2:準备Octopparse Scraping 101。

在使用新工具之前,最好先熟悉其工作逻辑。因此,如果您不熟悉Octoparse,请检查一下Octoparse的总体工作方式。

步骤3:选择以下方法之一来构建URL Scraper。

方法1:单击图像以直接提取URL

方法2:清除源代码并重新格式化

让我们开始吧!!

##方法1:单击图像以直接提取URL
在这种情况下,我将向您展示如何在BestBuy上抓取笔记本电脑的图像URL。只需在BestBuy上搜索“笔记本电脑”,您就可以获取URL(https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp= &qp =&list = n&af = true&iht = y&usc = All + Categories&ks = 960&keys = keys)。

1)在计算机上打开Octoparse。然后点击进入“高级模式”

高级模式

2)您只需複制并複制Bestbuy URL,即可进入网站框。然后,单击底部的“保存URL”。

通过上述步骤,您可以在Octoparse内置浏览器中打开网站。

 浏览

3)一般来说,我们需要所有页面或尽可能多的图像URL。那难吗?当然,当您使用Octoparse时不会。

在Octoparse网站上单击“>”后,您可以在“操作提示”栏上看到一些选项。这些选项由Octoparse算法自动生成。

然后,只需单击“循环单击下一页”即可创建循环项

 循环点击下一页

现在,在工作流中创建了循环。

 工作流程

4)现在,我们可以单击图像直接提取URL。

单击网页上的两个图像,以帮助Octoparse识别IMG字段。一旦成功完成Octoparse识别图像,我们就可以在“操作提示”栏的底部看到“ IMG”元素显示。

然后,只需按照提示单击“循环提取图像URL”即可。

循环提取IMG

5)通过以上4个步骤,我们在Octoparse中创建了URL抓取工具。最后一步是提取图像URL。

 提取IMG URL

单击“开始提取”-“本地提取”,然后Octoparse开始收集图像URL。

最后结果

##方法2:清除源代码并重新格式化
为了演示这种方法,我想向您展示如何在bing.com上收集图像URL。目标网址为:

https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip=1585101208

1)在Octoparse中打开目标网站,这与我们之前的操作类似。

2)在Octoparse的内置浏览器中打开目标URL后,我们只需要随机单击页面即可。然后,我们单击“ <<”并在“操作提示”栏底部选择“ HTML”。

IMG

然后,我们只需选择“提取所选元素的外部HTML”即可获取整个网站的源代码。

工作流程

整个HTML显示在“数据定制区域”中。
数据定制区

回到网站,(https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip = 1585101208),然后按Ctrl + Shift + I,您可以查看网站的HTML。

 检查网站

如果足够小心,您可以轻鬆找出图像URL的共享功能。

它们以“ https://”开头,以“” id =”结尾。一旦获得此信息,我们就可以使用称为“重新格式化”的Octoparse工具轻鬆地从源代码中选择图像URL。

HTML模式

3)让我们回到Octoparse!单击数据自定义区域上突出显示的图标。
自定义数据字段

然后,我们有4个选项供我们进一步自定义所选数据。在这种情况下,我们需要做的是“精炼提取的数据”。

优化提取的数据

点击“添加步骤”,我们可以看到重新格式化选项。选择“匹配正则表达式”

与正则表达式匹配

点击“试用RegEx工具”

Octoparse Regex工具

然后,只需填写空白,告诉Octoparse您想要哪种数据格式。Octoparse将自动生成RexEx并帮助您选择所需的信息。

单击几下后,我们可以看到页面上的所有URL都出现在左下方的框中。

尝试Regex工具

4)现在,我们可以使用我们刚刚构建的URL抓取工具提取数据!


这两种构建URL搜寻器的方法对您来说容易吗?无论如何,只要做到这一点,您就会知道!如果在创建网址抓取工具时遇到任何问题,欢迎您通过support@octoparse.com与支持人员联繫。

此外,儘管这些方法是关于构建图像URL抓取器的,但是您可以根据需要将其扩展为创建视频URL抓取器或电子邮件抓取器。创建网址抓取工具的逻辑是相同的!

作者:埃里卡


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章