scrapy抓取免费代理IP-阿里云开发者社区

scrapy抓取免费代理IP

2017-11-08 1461

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1、创建项目

scrapy startproject getProxy

2、创建spider文件，抓取www.proxy360.cn www.xicidaili.com两个代理网站内容

cd项目的spiders模块下执行

scrapy genspider proxy360Spider proxy360.cn

scrapy genspider xiciSpider xicidaili.com

scrapy shell http://www.proxy360.cn/Region/China

scrapy shell http://www.xicidaili.com/nn/2

执行结果发现proxy360.cn response 返回200，西刺网返回500需要修改一下默认的请求头参数

3、项目文件结构

4、需要修改settings文件的user agent通过浏览器代理抓取

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko)'

5、打开items文件，定义需要爬取的字段

scrapy


(scrapy.Item):
    ip = scrapy.Field()
    port = scrapy.Field()
    type = scrapy.Field()
    location = scrapy.Field()
    protocol = scrapy.Field()
    source = scrapy.Field()

6、打开proxy360Spider定义爬取的逻辑

打开xiciSpider定义西刺网爬取的逻辑

scrapy
sys
sys.path.append()
items GetproxyItem
__author__=(scrapy.Spider):
    name = allowed_domains = []
    wds = []
    pages = start_urls = []
    type wds:
        i (pages + ):
            start_urls.append(+ type + + (i))
    (response):
        subSelector = response.xpath()
        items = []
        sub subSelector:
            item = GetproxyItem()
            item[] = sub.xpath().extract()[]
            item[] = sub.xpath().extract()[]
            item[] = sub.xpath().extract()[]
            sub.xpath():
                item[] = sub.xpath().extract()[]
            :
                item[] = sub.xpath().extract()[]
            item[] = sub.xpath().extract()[]
            item[] = items.append(item)
        items

7、定义爬取结果，数据处理层pipelines

分别将proxy360网站的数据存到prox360.txt文件

西刺网的爬取数据存到xicidaili.txt文件