python 自动下载网站相关附件

简介:

论坛里有人问如何写个简单的爬虫. 要求如下:


每天的最新文章里面的附件

如何做到

定时下载


#看了一下这个网站, 还好. 好久没折腾过 urllib什么的, 然后写了一个, 测试可以.

在正则匹配时, 建议把数据的编码方式转为脚本编码方式一致.


脚本如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#!/usr/bin/env python
#-*- coding:utf-8 -*-
 
import  urllib
import  re
 
url  =  "http://www.bjjy.gov.cn"
 
def  get_html_data(u):
     =  urllib.urlopen(u).read()
     =  ""
     for  in  h.split( "\n" ):
         try :
             + =  "\n"  +  i.decode( 'gbk' ).encode( 'utf-8' )
         except :
             pass
     return  t
     
def  get_link(data):
     d, link  =  re.findall(r '最新文章标题开始(.*)最新文章标题结束' , data, re.S), []
     if  len (d):
         =  re.findall(r '<A HREF="([^"].*)" TARGET="_blank"' , d[ 0 ], re.I)
         if  len (s):
             for  in  s:
                 link.append(i)
     return  link
 
if  __name__  = =  "__main__" :
     html  =  get_html_data(url)
     f_link  =  get_link(html)
     for  in  f_link:
         tmp_data  =  get_html_data(url  +  i)
         tmp_link  =  re.findall(r '<a href="([^"].*)"><span style' ,tmp_data, re.I)
         if  len (tmp_link):
             for  in  tmp_link:
                 urllib.urlretrieve(url + j, (url + j).split( "/" )[ - 1 ])



上面要匹配 最新文章 那个地方, 之前没有把数据转码,就是不行.


以上脚本加个定时任务OK.



本文转自 nonono11 51CTO博客,原文链接:http://blog.51cto.com/abian/1672622,如需转载请自行联系原作者

相关文章
|
1月前
|
存储 缓存 Python
如何使用Python抓取PDF文件并自动下载到本地
如何使用Python抓取PDF文件并自动下载到本地
34 0
|
2月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
2月前
|
Linux 开发工具 C语言
30天python速成-第一天(python简介及下载安装)
30天python速成-第一天(python简介及下载安装)
49 3
|
2月前
|
前端开发 关系型数据库 MySQL
基于python+mysql的宠物领养网站系统
基于python+mysql的宠物领养网站系统
36 2
|
3月前
|
Web App开发 Python
Python使用selenium的Chrome下载文件报错解决
Python使用selenium的Chrome下载文件报错解决
49 0
|
3月前
|
Web App开发 Python
python+selenium+Chrome 监测文件是否下载完毕
python+selenium+Chrome 监测文件是否下载完毕
56 0
|
12天前
|
开发者 Python
Python中使用`requests`库进行文件上传与下载的技术详解
【4月更文挑战第12天】在Python的网络编程中,文件上传和下载是常见的需求。`requests`库作为一个强大且易用的HTTP客户端,为我们提供了简便的文件上传和下载功能。本文将详细介绍如何在Python中使用`requests`库进行文件上传和下载。
|
15天前
|
数据采集 自然语言处理 搜索推荐
一篇博客带你领略学习Python的第三方库---如何获取和安装第三方库,关于三种常见第三方库的下载和讲解(pyinstall库,jieba库,wordcloud库),更多第三方库的分类介绍
一篇博客带你领略学习Python的第三方库---如何获取和安装第三方库,关于三种常见第三方库的下载和讲解(pyinstall库,jieba库,wordcloud库),更多第三方库的分类介绍
|
22天前
|
前端开发 测试技术 数据库
【python】为什么使用python Django开发网站这么火?
【python】为什么使用python Django开发网站这么火?
|
1月前
|
Shell Python Windows
通过Python实现win11环境下FTP的上传与下载
通过Python实现win11环境下FTP的上传与下载