从任何网站获取URL都很容易。Control + C和Control + V,完成!但是,如果您需要为网站收集成千上万个URL,该怎么办?我认为我们不愿意一遍又一遍地进行複制粘贴。在这种情况下,必须使用URL抓取工具。
您可能想知道为什么还要收集URL。在大多数情况下,人们将收集例如图像,视频或广告系列链接以建立内容汇总站点以供参考。当然,这可能会带来许多潜在的商业公司机会。
在本文中,我想向您展示如何在几分钟内无需编码即可构建URL爬虫。阅读全文后,每个人都可以将其确定下来。
步骤1:在计算机上安装Octoparse。
在这种情况下,我将使用Octoparse演示如何构建URL爬虫。如果您想继续学习本课程,只需下载Octoparse即可。
步骤2:準备Octopparse Scraping 101。
在使用新工具之前,最好先熟悉其工作逻辑。因此,如果您不熟悉Octoparse,请检查一下Octoparse的总体工作方式。
步骤3:选择以下方法之一来构建URL Scraper。
方法1:单击图像以直接提取URL
方法2:清除源代码并重新格式化
让我们开始吧!!
##方法1:单击图像以直接提取URL
在这种情况下,我将向您展示如何在BestBuy上抓取笔记本电脑的图像URL。只需在BestBuy上搜索“笔记本电脑”,您就可以获取URL(https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp= &qp =&list = n&af = true&iht = y&usc = All + Categories&ks = 960&keys = keys)。
1)在计算机上打开Octoparse。然后点击进入“高级模式”
2)您只需複制并複制Bestbuy URL,即可进入网站框。然后,单击底部的“保存URL”。
通过上述步骤,您可以在Octoparse内置浏览器中打开网站。
3)一般来说,我们需要所有页面或尽可能多的图像URL。那难吗?当然,当您使用Octoparse时不会。
在Octoparse网站上单击“>”后,您可以在“操作提示”栏上看到一些选项。这些选项由Octoparse算法自动生成。
然后,只需单击“循环单击下一页”即可创建循环项
现在,在工作流中创建了循环。
4)现在,我们可以单击图像直接提取URL。
单击网页上的两个图像,以帮助Octoparse识别IMG字段。一旦成功完成Octoparse识别图像,我们就可以在“操作提示”栏的底部看到“ IMG”元素显示。
然后,只需按照提示单击“循环提取图像URL”即可。
5)通过以上4个步骤,我们在Octoparse中创建了URL抓取工具。最后一步是提取图像URL。
单击“开始提取”-“本地提取”,然后Octoparse开始收集图像URL。
##方法2:清除源代码并重新格式化
为了演示这种方法,我想向您展示如何在bing.com上收集图像URL。目标网址为:
https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip=1585101208
1)在Octoparse中打开目标网站,这与我们之前的操作类似。
2)在Octoparse的内置浏览器中打开目标URL后,我们只需要随机单击页面即可。然后,我们单击“ <<”并在“操作提示”栏底部选择“ HTML”。
然后,我们只需选择“提取所选元素的外部HTML”即可获取整个网站的源代码。
整个HTML显示在“数据定制区域”中。
回到网站,(https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip = 1585101208),然后按Ctrl + Shift + I,您可以查看网站的HTML。
如果足够小心,您可以轻鬆找出图像URL的共享功能。
它们以“ https://”开头,以“” id =”结尾。一旦获得此信息,我们就可以使用称为“重新格式化”的Octoparse工具轻鬆地从源代码中选择图像URL。
3)让我们回到Octoparse!单击数据自定义区域上突出显示的图标。
然后,我们有4个选项供我们进一步自定义所选数据。在这种情况下,我们需要做的是“精炼提取的数据”。
点击“添加步骤”,我们可以看到重新格式化选项。选择“匹配正则表达式”
点击“试用RegEx工具”
然后,只需填写空白,告诉Octoparse您想要哪种数据格式。Octoparse将自动生成RexEx并帮助您选择所需的信息。
单击几下后,我们可以看到页面上的所有URL都出现在左下方的框中。
4)现在,我们可以使用我们刚刚构建的URL抓取工具提取数据!
这两种构建URL搜寻器的方法对您来说容易吗?无论如何,只要做到这一点,您就会知道!如果在创建网址抓取工具时遇到任何问题,欢迎您通过support@octoparse.com与支持人员联繫。
此外,儘管这些方法是关于构建图像URL抓取器的,但是您可以根据需要将其扩展为创建视频URL抓取器或电子邮件抓取器。创建网址抓取工具的逻辑是相同的!
作者:埃里卡