Python2 爬虫（二） -- 一条蠕动的爬虫爬出我CSDN全部博文-阿里云开发者社区

Python2 爬虫（二） -- 一条蠕动的爬虫爬出我CSDN全部博文

2016-10-21 1553

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 如果是我的个人主页那种自己搭建服务器啥的，反正就是不用登录的也就是没有任何安全防范的网站，我们用之前一中的例子即可，如果要爬csdn这种网站，我们必须模拟成模拟器登录。先介绍一个工具吧，pycharm 官网下载pycharm，然后这里面就会方便很多，而且会有很多包。pycharm 注册码pycharm大致界面如下直接上代码。import reques

如果是我的个人主页那种自己搭建服务器啥的，反正就是不用登录的也就是没有任何安全防范的网站，我们用之前一中的例子即可，如果要爬csdn这种网站，我们必须模拟成模拟器登录。

先介绍一个工具吧，pycharm 官网
下载pycharm，然后这里面就会方便很多，而且会有很多包。

pycharm 注册码

pycharm大致界面如下
这里写图片描述

直接上代码。

import requests
import re

import sys

reload(sys)
sys.setdefaultencoding("utf-8")


def hi(id):
    url = "http://blog.csdn.net/bug_moving/article/details/" + id
    print url
    hea = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

    html = requests.get(url, headers=hea)

    print html.status_code

def write2file(content):
    filename = "123.txt"
    f = open(filename, 'a')
    f.write(content + '\n')
    f.close()

def visit(urlnum):
    hea = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'}

    url = 'http://blog.csdn.net/bug_moving/article/list/' + str(urlnum)
    #url = 'http://blog.csdn.net/bug_moving'
    # url = 'http://jp.tingroom.com/yuedu/yd300p/'

    html = requests.get(url, headers=hea)

    html.encoding = 'utf-8'

    title = re.findall('<a href="/bug_moving/article/details/([0-9]*?)">', html.text, re.S)
    for each in title:
        print each
        write2file(each)
        name = re.findall('<a href="/bug_moving/article/details/'+each+'">(.*?)</a>', html.text, re.S)
        for na in name:
            write2file(na)


def loopvisit(f, n):  # f repeats n times
    if n > 11:
        return
    else:
        f(n)
        loopvisit(f, n + 1)

loopvisit(visit,1)