开发者社区大数据文章正文

Python网络爬虫之爬取百思不得姐视频并保存至文件

2018-01-19 1691

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 项目说明使用Python写网络爬虫之爬取百思不得姐视频并保存至文件示例使用工具Python2.7.X、pycharm使用方法在pycharm中创建一个爬取百思不得姐视频.

项目说明

使用Python写网络爬虫之爬取百思不得姐视频并保存至文件示例

使用工具

Python2.7.X、pycharm

使用方法

在pycharm中创建一个爬取百思不得姐视频.py文件，并在当前目录下创建video文件夹来存放抓取的视频文件，撰写代码，运行代码，查看运行结果

操作原理

1.首先先了解正则表达式的使用方法，见：正则表达式

2.找到百思不得姐的视频主页URL：http://www.budejie.com/video/

通过火狐浏览器的fire bug工具分析，可以看出来，链接中class=j-r-list-c里就存在有对应的视频名称和视频链接；

然后，右击查看页面源码：

页面源码

下图为视频链接地址

视频链接地址

程序代码：

程序代码

运行结果：

运行结果

可以看到，运行程序后在video文件夹中已经存放有爬取的视频名称和链接。

文章标签：

Python

数据采集

关键词：

Python文件

Python网络

网络文件

Python网络爬虫

爬虫python

keitwotest

桃李春风一杯酒

7天前

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

26 2 2

java开发-郭老师

11天前

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0