说明
仍在开发中...不过可以简单玩玩了
安装
git clone https://github.com/keepeye/phpcrawl.git ./phpcrawl
cd phpcrawl
composer install
使用
###第一步:定义蜘蛛###
打开 configs.php ,在 spider 下定义蜘蛛, 说明参照注释
###第二步:创建spider类###
在配置文件中定义了一个 spider 后,就需要创建对应的 class ,class继承 librarySpider
,需要实现的方法请参考示例蜘蛛 XiguaSpider
###第三步:启动爬虫###
在项目根目录执行
php main.php crawl 蜘蛛名
//例: php main.php crawl xigua
###第四步:查看数据###
在 data 目录下又对应蜘蛛名的子目录,数据会保存到sqlite, 可以用工具查看.
###未完###
重新采集只需要删除 data/蜘蛛名
目录
等待支持的特性有:
图片下载 内容页分页采集 多级内容页面采集 发布模块 更多..
版权声明:
1、该文章(资料)来源于互联网公开信息,我方只是对该内容做点评,所分享的下载地址为原作者公开地址。2、网站不提供资料下载,如需下载请到原作者页面进行下载。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考学习用!
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。