我的第一个Scrapy 程序 - 爬取当当网信息

2017-11-15 1347

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介：

前面已经安装了Scrapy，下面来实现第一个测试程序。

概述

Scrapy是一个爬虫框架，他的基本流程如下所示（下面截图来自互联网）

我的第一个Scrapy 程序 - 爬取当当网信息

简单的说，我们需要写一个item文件，定义返回的数据结构；写一个spider文件，具体爬取的数据程序，以及一个管道 pipeline 文件，作为后续操作，比如保存数据等等。

下面以当当网为例，看看怎么实现。
这个例子里面我想爬取的内容是前面20页的羽绒服产品，包括产品名字，链接和评论数。

过程

1. 创建一个Scrapy的项目

scrapy startproject dangdang

AI 代码解读

2. 创建一个爬虫文件**

scrapy genspider -t basic dd dangdang.com

这样他会自动创建一个爬虫文件，结构如下所示：
我的第一个Scrapy 程序 - 爬取当当网信息

3. 编写items.py

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DangdangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()

title=scrapy.Field()
url=scrapy.Field()
comment=scrapy.Field()

AI 代码解读

4. 编写爬虫文件dd.py

前面第二步已经自动生成了一个模板，我们直接修改就行。
dd.py

# -*- coding: utf-8 -*-

import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request

class DdSpider(scrapy.Spider):
name = 'dd'
allowed_domains = ['dangdang.com']
start_urls = ['http://category.dangdang.com/pg1-cid4010275.html']

def parse(self, response):

item=DangdangItem()
item['title']=response.xpath(u"//a[@dd_name='单品标题']/text()").extract()
item['url']=response.xpath("//a[@dd_name='单品标题']/@href").extract()
item['comment']=response.xpath("//a[@dd_name='单品评论']/text()").extract()
text = response.body
# content_type = chardet.detect(text)
# if content_type['encoding'] != 'UTF-8':
# text = text.decode(content_type['encoding'])
# text = text.encode('utf-8')
# print(text)

yield item

for i in range(2,20):
url='http://category.dangdang.com/pg%d-cid4010275.html'%i
yield Request(url,callback=self.parse)

AI 代码解读

5. 编写pipelines.py

为了使用pipeline，配置文件需要做个小修改，我顺便关掉了对robot文件的确认
settings.py

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
'dangdang.pipelines.DangdangPipeline': 300,
}

AI 代码解读

pipeline.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql

class DangdangPipeline(object):
def process_item(self, item, spider):
conn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')
for i in range(0,len(item['title'])):
title=item['title'][i]
link=item['url'][i]
comment=item['comment'][i]

print(type(title))
print(title)
# sql="insert into dd(title,link,comment) values ('"+title+"','"+link+"','"+comment+"')"
sql = "insert into dd(title,link,comment) values('" + title + "','" + link + "','" + comment + "')"
try:
conn.query(sql)
except Exception as err:
pass
conn.close()

return item

AI 代码解读

6. 创建数据库和表

我最后的数据要保存到mysql里面，python里面可以通过pymysql进行操作。我提前在mysql命令行界面里面创建了一个数据库和空表

mysql> create database dangdang;
mysql> create table dd(id int auto_increment primary, title varchar(100), link varchar(100), comment varchar(32));

AI 代码解读

7. 执行

scrapy crawl dd
如果不想看日志可以使用
scrapy crawl dd --nolog

8. 检测结果

test.py

#！/usr/bin/env python
#! -*- coding:utf-8 -*-
# Author: Yuan Li
import pymysql
conn=pymysql.connect(host='127.0.0.1',user='root',passwd='root',db='dangdang',use_unicode=True,charset='utf8')

cursor = conn.cursor(cursor=pymysql.cursors.DictCursor)
#SQL查询
cursor.execute("select * from dd")
row=cursor.fetchall()
for i in row:
print(i)
conn.close()

AI 代码解读

结果测试成功

我的第一个Scrapy 程序 - 爬取当当网信息

本文转自 beanxyz 51CTO博客，原文链接：http://blog.51cto.com/beanxyz/2069239，如需转载请自行联系原作者

我的第一个Scrapy 程序 - 爬取当当网信息

概述

过程

1. 创建一个Scrapy的项目

2. 创建一个爬虫文件**

3. 编写items.py

4. 编写爬虫文件dd.py

5. 编写pipelines.py

6. 创建数据库和表

7. 执行

8. 检测结果

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

我的第一个Scrapy 程序 - 爬取当当网信息

概述

过程

1. 创建一个Scrapy的项目

2. 创建一个爬虫文件**

3. 编写items.py

4. 编写爬虫文件dd.py

5. 编写pipelines.py

6. 创建数据库和表

7. 执行

8. 检测结果

热门文章

最新文章

相关电子书