python 爬虫自动登录人人网-阿里云开发者社区

python 爬虫自动登录人人网

2015-03-25 1002

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 简单的python的爬虫，已经看了一周了，里面还是有一些细节搞不懂，最近连做梦都在post数据，想想真是醉了，我的目标是进入学校的教务系统，可能对有些人来说可能轻而易举，但是对我来说也算是一个很大的挑战了，尤其是教务系统登录页面的验证码，看了几天也没搞懂，算了，还是慢慢研究吧，最近想开始试试...

简单的python的爬虫，已经看了一周了，里面还是有一些细节搞不懂，最近连做梦都在post数据，想想真是醉了，我的目标是进入学校的教务系统，可能对有些人来说可能轻而易举，但是对我来说也算是一个很大的挑战了，尤其是教务系统登录页面的验证码，看了几天也没搞懂，算了，还是慢慢研究吧，最近想开始试试写简历了，学长一个劲的要求一定要写项目经验，这才意识到不懂做项目其实也挺可悲的，不过我还有一年，真该为就业想想了，加油了，先贴一个进入人人网的代码！代码只写了进入人人网，并获取页面内容，至于获取之后想怎么玩，那就要看你想做什么了，利用正则表达式处理就行了！

#coding:utf-8
import urllib2
import urllib
import cookielib
import re
def renrenBrower(url,user,password):
    #登陆页面，可以通过抓包工具分析获得，如fiddler，wireshark
    login_page = "http://www.renren.com/PLogin.do"
    try:
        #获得一个cookieJar实例
        cj = cookielib.CookieJar()
        #cookieJar作为参数，获得一个opener的实例
        opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
        #伪装成一个正常的浏览器，避免有些web服务器拒绝访问。此处伪装的火狐
        opener.addheaders = [('User-agent','Mozilla/5.0 (Windows NT 6.3; WOW64; rv:36.0) Gecko/20100101 Firefox/36.0')]
        #生成Post数据，含有登陆用户名密码。
        data = urllib.urlencode({"email":user,"password":password})
        #以post的方法访问登陆页面，访问之后cookieJar会自定保存cookie
        opener.open(login_page,data)
        #以带cookie的方式访问页面
        op=opener.open(url)
        #读取页面源码
        data= op.read()
        return data
    
#异常处理
    except Exception,e:
        print str(e)
#访问某用户的个人主页，其实这已经实现了人人网的签到功能。
html = renrenBrower("http://www.renren.com/home",'************','********')
print html

倒数第二行的*****处，分别是人人网的账号和密码！