快乐学习
前程无忧、中华英才非你莫属!

千万级批量采集框架UrlSpider吧

我希望在整个理清楚数据采集这个行业的过程中,实现一个能高效的分布式的自带反爬虫的框架。。

在近期完成的一个数亿级别数据采集过程中凝聚的技术精华。单机速度4kw一天。代码规模200行

本项目难度较大,不建议初学者尝试。

目录:

UrlSpider特性

UrlSpider 环境依赖

代码整体源代码

 

 

一:UrlSpider特性:

  • 多线程任务分配,适用于超大任务队列的完成。
  • 可选两种请求方式可用获取js渲染后源码
  • tor代理等ip更换
  • mysql数据库主导的任务调度分布式

在开始写之前,先想明白爬虫需要怎样的模块

明确任务url  》 各种伪装  》发起请求  》 源码解析 》 存库

因此UrlSpider,就是设定一种模板,将多线程操作和反爬虫的设定融合其中。让新需求只需要给出一个url列的表。UrlSpider即可以分布式多线程的效率进行大批量采集。

 

二:UrlSpider 环境依赖

主要需要的就是MySQLdb 和requests,requesocks

如果安装有phantomjs,该框架还可以请求到js渲染后的数据。

如果安装有tor,该框架可以在主进程进行调用跟换出口ip

 

三:代码整体源代码

待更新,目前初步版本github上的UrlSpider目录下。

https://github.com/luyishisi/Anti-Anti-Spider/tree/master/UrlSpider

之后会陆陆续续更新使用方式,和项目样例

 

 

 

 

转载自:URl-team

打赏

未经允许不得转载:同乐学堂 » 千万级批量采集框架UrlSpider吧

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

特别的技术,给特别的你!

联系QQ:1071235258QQ群:226134712
error: Sorry,暂时内容不可复制!