在几分钟内写好一个URL爬虫-58码农网

从任何网站获取URL都很容易。Control + C和Control + V，完成！但是，如果您需要为网站收集成千上万个URL，该怎么办？我认为我们不愿意一遍又一遍地进行複制粘贴。在这种情况下，必须使用URL抓取工具。

您可能想知道为什么还要收集URL。在大多数情况下，人们将收集例如图像，视频或广告系列链接以建立内容汇总站点以供参考。当然，这可能会带来许多潜在的商业公司机会。

在本文中，我想向您展示如何在几分钟内无需编码即可构建URL爬虫。阅读全文后，每个人都可以将其确定下来。

步骤1：在计算机上安装Octoparse。

在这种情况下，我将使用Octoparse演示如何构建URL爬虫。如果您想继续学习本课程，只需下载Octoparse即可。

步骤2：準备Octopparse Scraping 101。

在使用新工具之前，最好先熟悉其工作逻辑。因此，如果您不熟悉Octoparse，请检查一下Octoparse的总体工作方式。

步骤3：选择以下方法之一来构建URL Scraper。

方法1：单击图像以直接提取URL

方法2：清除源代码并重新格式化

让我们开始吧！！

##方法1：单击图像以直接提取URL
在这种情况下，我将向您展示如何在BestBuy上抓取笔记本电脑的图像URL。只需在BestBuy上搜索“笔记本电脑”，您就可以获取URL（https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp= ＆qp =＆list = n＆af = true＆iht = y＆usc = All + Categories＆ks = 960＆keys = keys）。

1）在计算机上打开Octoparse。然后点击进入“高级模式”

2）您只需複制并複制Bestbuy URL，即可进入网站框。然后，单击底部的“保存URL”。

通过上述步骤，您可以在Octoparse内置浏览器中打开网站。

3）一般来说，我们需要所有页面或尽可能多的图像URL。那难吗？当然，当您使用Octoparse时不会。

在Octoparse网站上单击“>”后，您可以在“操作提示”栏上看到一些选项。这些选项由Octoparse算法自动生成。

然后，只需单击“循环单击下一页”即可创建循环项

现在，在工作流中创建了循环。

4）现在，我们可以单击图像直接提取URL。

单击网页上的两个图像，以帮助Octoparse识别IMG字段。一旦成功完成Octoparse识别图像，我们就可以在“操作提示”栏的底部看到“ IMG”元素显示。

然后，只需按照提示单击“循环提取图像URL”即可。

5）通过以上4个步骤，我们在Octoparse中创建了URL抓取工具。最后一步是提取图像URL。

单击“开始提取”-“本地提取”，然后Octoparse开始收集图像URL。

##方法2：清除源代码并重新格式化
为了演示这种方法，我想向您展示如何在bing.com上收集图像URL。目标网址为：

https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip=1585101208

1）在Octoparse中打开目标网站，这与我们之前的操作类似。

2）在Octoparse的内置浏览器中打开目标URL后，我们只需要随机单击页面即可。然后，我们单击“ <<”并在“操作提示”栏底部选择“ HTML”。

然后，我们只需选择“提取所选元素的外部HTML”即可获取整个网站的源代码。

整个HTML显示在“数据定制区域”中。

回到网站，（https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip = 1585101208），然后按Ctrl + Shift + I，您可以查看网站的HTML。