快乐学习
前程无忧、中华英才非你莫属!

Day1-分布式爬虫并打造搜索引擎全过程

一、技术选型


为什么需要系统学爬虫,是因为得数据者,得天下。(备注:百度就是一个很好的例子,他就是一个非常庞大的一个爬虫系统!)

之前小编利用火车头,八爪鱼等,因好多公司编辑,甚至开发,统计都在用!但是缺点太不灵活,且高级功能需付费!

且工具对接人群是需要有一点编程经验!知道什么是url,正则表达式!怎么知道过滤网页内容就可以了。但是唯一缺点炒鸡不灵活。


为了高效、灵活得到自己想要的数据,接下来开始带大家系统学习爬虫

想要做一个爬虫工程师,其实不是那么简单的!之前也很多人学爬虫,看了很多书,其实爬虫难度很大啊!知识储备不比开发、测试、运维的知识少,最后达到想爬撒,就爬啥的程度,那部分人都是被大企业养起来,且见不得光的!


因为随着国家对大数据安全的意识提高,so,一般网站如果做声明,就不能去爬取了,个人隐私也不要随意爬取,以免犯罪哈~,除非你有非常高超的技术,偷吃东西也能把嘴擦得很干净!

例如淘宝就做了不准爬取的声明!这个声明文件叫做:robots.txt



1、编程语言:python、HTML、JavaScript、SQL(正则表达式、字符串、数据库、url 、TCP-IP、json、xml、cookie、session等)

2、编程工具:pycharm

3、爬虫框架:scrapy 

4、过滤器:Bloom-Filter

4、原理:广度优先、深度优先 

4、web驱动器:selenium

4、数据存储:mysql、redis

5、搜索引擎:elasticsearch

6、web展示:django、Tableau JavaScript API


一、环境配置篇

配置python环境


去官网下载即可(安装篇略),因机器上安装了python2.7 和3.5 ,且有些功能是用2.7完成的,有些功能是用3.5下某些库完成的,为了让功能独立,版本互不影响,这里我们来安装python虚拟机:virtualenv、virtualenvwrapper 来进行隔离.


这里我说下python是如何安类库的,因安装类库比较方便的是直接在线安装,因官方安装源被国内墙了,且因地域的问题,经常出现timeout,这里面我们来配置国内的源来进行快速进行在线安装python的类库。

pip install -i https://pypi.douban.com/simple/ virtualenv     


pip install -i https://pypi.douban.com/simple/ virtualenvwrapper-win     linux版本 pip install -i https://pypi.douban.com/simple/ virtualenvwrapper


设置WORKON_HOME环境变量 :E:virtualenv     


新建虚拟环境:mkvirtualenv ztloo

查看安装的所有虚拟环境:workon


进入虚拟环境:workon ztloo


退出虚拟环境:deactivate


接下来我们用独立环境ztloo 来安装django、scrapy


pip install -i https://pypi.douban.com/simple/ django

pip install -i https://pypi.douban.com/simple/ scrapy




Scrapy安装错误:Microsoft Visual C++ 14.0 is required…


解决方法:

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件


cp后面是Python版本,amd64代表64位,运行命令:pip install Twisted-17.5.0-cp35-cp35m-win_amd64.whl

Twisted-17.5.0-cp35-cp35m-win_amd64.whl


再次运行:pip install -i https://pypi.douban.com/simple/ scrapy





打赏

未经允许不得转载:同乐学堂 » Day1-分布式爬虫并打造搜索引擎全过程

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

特别的技术,给特别的你!

联系QQ:1071235258QQ群:226134712
error: Sorry,暂时内容不可复制!