Selenium2+python自动化37-爬页面源码（page_source）-阿里云开发者社区

Selenium2+python自动化37-爬页面源码（page_source）

2017-03-06 1163

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言有时候通过元素的属性的查找页面上的某个元素，可能不太好找，这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。 selenium的page_source方法很少有人用到，小编最近看api不小心发现这个方法，于是突发奇想，这里结合python的r...

前言

有时候通过元素的属性的查找页面上的某个元素，可能不太好找，这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码。

selenium的page_source方法很少有人用到，小编最近看api不小心发现这个方法，于是突发奇想，这里结合python的re模块用正则表达式爬出页面上所有的url地址，可以批量请求页面url地址，看是否存在404等异常

一、page_source

1.selenium的page_source方法可以直接返回页面源码

2.重新赋值后打印出来

二、re非贪婪模式

1.这里需导入re模块

2.用re的正则匹配：非贪婪模式

3.findall方法返回的是一个list集合

4.匹配出来之后发现有一些不是url链接，可以删选下

三、删选url地址出来

1.加个if语句判断，‘http’在url里面说明是正常的url地址了

2.把所有的url地址放到一个集合，就是我们想要的结果啦

四、参考代码

# coding:utf-8
from selenium import webdriver
import re
driver = webdriver.Firefox()
driver.get("http://www.cnblogs.com/yoyoketang/")
page = driver.page_source
# print page
# "非贪婪匹配,re.S('.'匹配字符,包括换行符)"
url_list = re.findall('href=\"(.*?)\"', page, re.S)
url_all = []
for url in url_list:
    if "http" in url:
        print url
        url_all.append(url)
# 最终的url集合
print url_all

学习过程中有遇到疑问的，可以加selenium（python+java） QQ群交流:646645429

selenium+python高级教程》已出书：selenium webdriver基于Python源码案例

（购买此书送对应PDF版本）

Selenium2+python自动化37-爬页面源码（page_source）

热门文章

最新文章

相关课程

相关电子书

相关实验场景