PHP - spider 框架

这是最近使用纯 php 代码开发的并行抓取(爬虫)框架,基于 hightmanhttpclient 组件。

您必须先装有 composer,然后在项目里先运行以下命令下载组件:

composer install

使用 pspider

这里头的 URL 表管理需要 MySQLi 扩展支持,表结构和自定义的内容参见自定义文件。

复制 custom/skel.inc.phpcustom/your.inc.php 根据说明修改 custom/your.inc.php 根据 custom/your.inc.php 里的注释创建 mysql 的 URL 表 运行 spider.php -u http://... 即可开始循环抓取 UrlTable 的实现很简单仅作示例,具体可自行重做

版权声明:

1、该文章(资料)来源于互联网公开信息,我方只是对该内容做点评,所分享的下载地址为原作者公开地址。
2、网站不提供资料下载,如需下载请到原作者页面进行下载。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考学习用!
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。