聊聊 Scrapy 分布式的几种方案

Scrapy 是一款开源爬虫框架，但是官方对分布式支持并不多，本文聊聊几种简单可行的方案。

需要注意的是，本文的爬虫并非对几个网站的纵向爬取，而是爬取一批不同的地址。如果是其它类型的爬虫，可能不适用，但应该能让你多个思考方向。

网址分批处理

既然是一批不同的地址，那么最直接的方案就是把网址分几个部分，然后起几个进程同时处理就行了。

举个例子，我们要爬取的地址是放到 Mongo 中的，存储格式类似这样

{ "_id" : 1, "url" : "https://www.baidu.com" }
{ "_id" : 2, "url" : "https://www.google.com" }
{ "_id" : 3, "url" : "https://www.csdn.net" }
...

那我们就在编写爬虫的时候，接受 2 个参数（起始的地址主键和结束的主键），就能爬取指定的地址了。之后的工作，便是怎么分配地址了。