Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)

  1. 云栖社区>
  2. 博客>
  3. 正文

Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)

巴黎香榭 2018-10-30 22:17:44 浏览1709
展开阅读全文
正则表达式(re模块):
    数据的分类:
        结构化数据
            有固定的格式 如HTML、XML、JSON
        非结构化数据
            图片、音频、视频 这类数据一般存储为二进制
    正则:
        使用流程:
            创建编译对象:p = re.compile("正则表达式")
            对字符串匹配:r = p.match("字符串")
            获取匹配结果:print(r.group())
        常用方法:
            match(str)  字符串开头的第一个  返回对象
            search(str) 从头开始匹配 只匹配一个 返回对象
            group()     从mat

网友评论

登录后评论
0/500
评论
巴黎香榭
+ 关注