爬取网页、产生CSV档案、汇入WooCommerce

由于最近接到一个厨具经销商,要架设一个商品型录网站(採用 WordPress + WooCommerce),商品资料要从原厂网站抓取,所以才会有这一系列的文章,这一篇的进度是透过 Python 写的爬虫工具,抓取原厂官网上的商品资料,并写成一个可用来汇入 WooCommerce 网站的 CSV 商品档案。

虽然此次的工作,是爬取厨具原厂的商品,自动转换成经销商架设的网站,但其实很多的行业,都是适用这一种作业模式的,例如冷气经销商、家电经销商、3C产品经销商、美妆用品、电动工具等等,真的非常多。

前一篇文章已经汇出了含有一笔简单商品的 CSV 档,用文字编辑器开启档案,就可以看到这个 CSV 档的内容,有2列资料。

货号,名称,简短内容说明,描述,有库存?,原价,分类,图片R3261,R3261斜背式除油烟机(高速双涡轮),商品简短说明,商品详细说明,1,8840,"樱花除油烟机 > 斜背系列, 樱花除油烟机",http://localhost/woo5/wp-content/uploads/2022/06/R3261-1.png

第一列是栏位名称,爬虫程式产製 CSV 档时,第一列直接複製这边者一列过去用即可,以帮助汇入时的栏位辨识,而第二列,就是我们的商品资料了。

所谓的 CSV 档案,就是一个以逗号(,)来分隔栏位资料的档案,所以对工程师来说,很容易了解并製作一个 CSV 档案,目前比较需要注意的是 “分类” 这个栏位,因为这个商品属于 2 个分类,而汇出时这 2 个分类是以逗号(,)隔开,并存入到 CSV 档的一个栏位中,为了避免这个分隔分类用的逗号(,),被误判为分隔栏位用的逗号(,),所以这整个分类栏位的资料内容,必须用一组双引号(“)将它包夹起来,以便判读 CSV 档的程式能正确解析资料的内容。

有了 CSV 的样板档案之后,就可以让爬虫工具依此格式来产生档案,档案产生之后就可以来做汇入的测试了。

选好档案后按 [继续]

系统收到档案之后,会读出第一列的栏位名称及第二列的资料内容,显示成入上图的画面,让使用者核对资料内容与栏位,是否有正确对应,如果产製的档案格式不正确,例如缺少某个逗号(,)、或是内容含有干扰格式的字元时,都有可能影响系统判读,拆解对应到错误的栏位,所以此处的核对非常重要,可以确认档案有正确被解析,若核对过栏位对应没问题,就可以点击 [执行汇入器],进行资料的写入。

执行汇入之后,会显示汇入的结果,汇入完成,代表档案格式大致没有问题,但汇入 1 商品失败,看起来还是发生了一些问题,下一篇再来研究一下发生了什么事,如何修正。


Free Styler 软体工作室 : https://coding.freestyler.cc/


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章