当前位置 博文首页 > splash组件的使用;日志信息与配置;scrapyd部署项目)_孤寒者的

    splash组件的使用;日志信息与配置;scrapyd部署项目)_孤寒者的

    作者:[db:作者] 时间:2021-07-25 18:39

    1.scrapy_redis概念,作用和流程

    (1)分布式是什么

    简单的说 分布式就是不同的节点(服务器,ip不同)共同完成一个任务
    

    (2)scrapy_redis的概念

    scrapy_redis是scrapy框架的基于redis的分布式组件
    

    (3)scrapy_redis的作用

    Scrapy_redis在scrapy的基础上实现了更多更强大的功能,具体体现在:
        通过持久化请求队列和请求的指纹集合来实现:
    	    断点续爬
    	    分布式快速抓取
    

    (4)流程:

        1.在scrapy_redis中,所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中
        2.所有的服务器中的scrapy进程公用同一个redis中的request对象的队列
        3.所有的request对象存入redis前,都会通过该redis中的request指纹集合进行判断,之前是否已经存入过
        4.在默认情况下所有的数据会保存在redis中
    
    
    特点:加快项目的运行速度,但是需要资源(硬件&网络)。
         原有的单个节点的不稳定性不影响整个系统的稳定性
    

    2.scrapy_redis原理分析并实现断

    cs