如何提取Google Maps坐标

您是否曾经想过知道平方英里内有多少家餐厅,就能赚钱? 没有免费的午餐,但是,如果您知道如何使用Google地图,则可以提取并收集餐厅的GPS,并将其存储在自己的数据库中。 有了这些信息并进行了一些数学计算,您就可以创建大数据在线服务。

在本文中,我将向您展示如何使用一种简单的方法快速提取Google Maps坐标。 让我们深入了解它。

很难注意到坐标实际上隐藏在URL内。 在这种情况下,我们需要提取URL,并使用正则表达式来查找我们要查找的完全匹配的文本字符串。 让我们以西雅图的太空针塔地标为例。

首先,在浏览器中打开Google Maps,然后在搜索栏中输入Space Needle.

space-needle

页面加载完成后,在URL中查找坐标。 坐标位于“ @”符号后面。

coordinates

接下来,我们可以开始提取URL。我们使用的工具是Octoparse。您可以使用自己喜欢的任何工具。 Octoparse是我见过的最好的Web抓取工具,因为它的直观用户界面非常容易拿起,特别是对于初学者。最好是已经在计算机上,或者可以在此处下载。

1.单击“ +”号以高级模式构建新任务
2.将网址输入到https://www.google.com/maps/place/Space+Needle/@47.6205099,-122.3514661,17z/data=!4m5!3m4!1s0x5490151f4ed5b7f9:0xdb2ba8689ed0920d!8m2!3d47.6205063063 !4d-122.3492774
3.点击“保存URL”继续。

现在,我们已经成功创建了一个新任务。问题是Google Maps无法在其内置浏览器中正确加载。为什么?这是因为Google Maps无法容纳当前浏览器的用户代理。要解决此问题,请单击图标。找到用户代理切换器。选择Firefox 45.0,然后单击“保存”。 Octoparse将重新加载网页本身。

网页加载完成后,我们可以通过单击内置浏览器来开始提取。单击名称,操作提示将显示您可以使用的选项。选择“提取所选元素的文本”

space-needle-click

现在,您应该注意到提取已成功创建并添加到下面的工作流程中。我们可以在右上方的设置区域中输入所需的名称来编辑字段名称。

转到提取字段,然后在底部找到“添加预定义字段”。单击以显示下拉菜单,然后选择“添加当前页面信息”,然后选择“网页URL”。

现在,网页URL已成功添加到数据字段中。这很棒!当然,我们需要编辑URL表单以删去多余的部分并提取确切的坐标。

点击底部的“自定义”图标(小铅笔)。选择“精炼提取数据”。然后单击添加步骤按钮。这将带您进入功能列表,您可以在其中选择进行数据清洗。在这种情况下,我们选择“使用正则表达式匹配”。你应该到达这里。

这样,您就可以通过编写正则表达式来根据需要编辑数据。正则表达式是用于描述搜索模式的特殊文本字符串。考虑到大多数人在编写表达式时遇到困难,我们可以使用内置的RegEx工具来帮助我们。单击“尝试RegEx工具”按钮。

注意,我们要在“ @”符号之后但在第二个逗号之前提取该部分。选中“开始于”框,然后输入“ @”。这是告诉正则表达式,您想要标誌后的零件。同样,选中“ End With”框,然后输入“,1”。由于“ @”后面有两个逗号,因此最好定义所需的逗号。只需简单地在逗号后面添加数字,在这种情况下,请添加数字“ 1”。这告诉RegEx,您需要在逗号和数字1之前的部分。单击“生成”按钮,正则表达式应能够显示在盒子。

现在,只需单击“匹配”按钮确认我们是否设置正确。它在右侧生成相应的表达式。繁荣!这正是我们想要的。现在继续,单击“应用”,然后单击“确定”进行确认。

而已!大功告成让我们运行搜寻器,看看它是否有效。单击“开始提取”,然后选择“本地提取”。

现在,如果您要查找1000个地址怎么办?不用担心,Octoparse允许您在设置任务时输入10,000个以上的URL。它看起来很简单。


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章