灯塔大数据 + 关注
手机版

技术 | Python的从零开始系列连载(三十五)

大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表达式的简单应用 环境配置在这之...

python mysql 函数 日志 数据库 shell 配置 脚本

技术| Python的从零开始系列连载(三十一)

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。

python 正则表达式 class page Group pattern

技术 | Python从零开始系列连载(二十八)

之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据, 优点是可见容易且不宜被淘宝公司封锁;缺点是速度太慢。 经过今天一天的钻研,终于学会分析数据包...

大数据 Json 源码 浏览器 淘宝

管理员:
山哥在这里
8
+ 关注
2
成员
19
文章