分布式爬虫概述
· 阅读需 4 分钟
分布式爬虫概述
分布式爬虫,是一种能够将爬虫效率发挥到极致的爬虫方法。
实现方式:scrapy + redis(完整说法是 scrapy 结合着 scrapy-redis 组件)
原生的 scrapy 框架是无法实现分布式的。
什么是是分布式?
- 分布式就是搭建一个分布式的机群,然后让机群中的每一台电脑执行同一组程序,让其对同一组资源 进行联合且分布的数据爬取。
为什么原生的 scrapy 框架无法实现分布式?
- 调度器无法被分布式机群共享
- 管道无法分布式机群被共享
如何实现分布式?
- 使用 scrapy-redis 组件即可
scrapy-redis 组件的作用是,可以给原生的 scrapy 框架提供共享的管道和调度器。
scrapy-redis 的安装:
pip install scrapy-redis