医学教育网批量资源下载程序之——获取下载列表

简介:

从网站上下载资源可分为两步:

(1)通过遍历网站的方试,生成资源列表。

(2)根据列表一一下载资源。


资源列表是一个树状结构:


前面已完成了login()函数,现在我们可以调用这个函数成功登陆并获得课程列表页面。

可以从这个页面获取课程名称与课程ID。

155850_1VSL_243525.png

捕获课程名称与课程ID可以用正则式进行。

为了方便调试正则式,我们直接用我们在login.py中下载下来的login.html进行分析。写如下脚本来调试正则式:


#!/usr/bin/env python
#encoding=utf-8
 
import re as reg
with open('login.html', 'r') as f:
    couse_reg = reg.compile(r'<a href="[^"]+cwareID=(\d{6})".*?<span class="bc3">(.*?)</span>')
    login_page = f.read()
    couse_list = couse_reg.findall(login_page)
    for couse_item in couse_list:
        print(couse_item[0] + ", " + couse_item[1].decode('gbk'))

这个程序经博主调试过,可以得到如下的结果:

700914, 药学综合知识与技能-基础[精品]
700536, 药物化学-基础[精品]
700925, 药剂学-基础(讲座一)[精品]
700021, 药剂学-基础(讲座二)[精品]
....<此处略>...
700797, (中药师)应试技巧
700837, 药学基础知识

哈哈~课程ID与课程名称就得到了。

有了课程ID,那么就可以到每个课程的下载页面去获取。

(等会儿,博主下楼吃个饭……)


目录
相关文章
|
4天前
|
存储 数据库 数据安全/隐私保护
如何使用AnyTXT Searcher+cpolar实现身在异地搜索公司本地电脑文件
如何使用AnyTXT Searcher+cpolar实现身在异地搜索公司本地电脑文件
|
6月前
|
API 开发者
|
1月前
|
安全 网络协议 搜索推荐
子域名收集神器:Layer 保姆级教程(附链接)
子域名收集神器:Layer 保姆级教程(附链接)
133 2
|
11月前
|
Python
现场打脸:如何使用Selenium批量上传文件?
现场打脸:如何使用Selenium批量上传文件?
157 0
|
搜索推荐 API 索引
2023年最新批量百度添加二级域名工具
大局部新站的蜘蛛量十分异常而且有时分会越来越少,关于有收录来说,会时不时的掉收录,十分不稳定, 需求友谊链接才干持续给站点增加蜘蛛量 让收录持续增长
173 0
2023年最新批量百度添加二级域名工具
|
数据采集 JSON 数据库
python爬虫目标网站的基本步骤
在访问目标网站的过程中分别需要做些什么步骤
python爬虫目标网站的基本步骤
|
缓存 监控 安全
CleanMyMac X4.11升级版下载及功能详情
CleanMyMac X/4一键智能清理系统垃圾,提升您的Mac运行速度,深度清理内存和保护隐私,检测并删除恶意软件和并读。 删除海量垃圾文件和恶意软件,让您的 Mac 飞速运行,井然有序。
111 0
号外!Rmarkdown教程全网发布
寒假期间花了大量时间(100h+)学习和制作了Rmarkdown入门教程,昨晚终于录制和剪辑完毕
121 0
|
数据安全/隐私保护
全网首发:怎样制作CDKEY(5)-让CDKEY更混乱
全网首发:怎样制作CDKEY(5)-让CDKEY更混乱
197 0
|
数据安全/隐私保护
全网首发:怎样制作CDKEY(2)-数据构造
全网首发:怎样制作CDKEY(2)-数据构造
113 0

热门文章

最新文章