博客园博客下载工具,可以主动搜索某人的blog,并以MHTML格式保存到本地文件夹脱机浏览。

简介:

1:输入某人的BLOG,例如http://www.cnblogs.com/JeffreyZhao/

2:任意打开一篇博客文章,例如:http://www.cnblogs.com/JeffreyZhao/archive/2010/03/21/async-and-parallel-design-patterns-in-fsharp-3-more-agents.html

3:我们看到了博客文章的url格式大致是,http://www.cnblogs.com/JeffreyZhao/+%22archive"+年+月+日+文章标题+".html"

4:OK,我们输入http://www.cnblogs.com/JeffreyZhao/archive/2010/03.html。发现显示的是随笔档案 - 2010年3月。这就意味着我们可以通过更改年月来得到相应的年月的随笔档案。

5:我们从2005年01月一直搜索到2010年12月.构造我们需要搜索的地址列表。储存到httpCategoryUrls这样的List<string>.

代码

 6:逐个解析我们的httpCategoryUrls里面的url,采用foreach进行遍历。

 

代码

 

其中随便找了个网上的spider组件,可以解析html得到html中的所有链接信息。

因为我们知道文章的url中包含"archive",并且url以.html结尾,

为了防止http://www.cnblogs.com/JeffreyZhao/archive/2010/03.html,这样的连接,我做了Length检查。

通过上述基本的几个步骤大致可以得到某人某年某月的随笔档案。全部保存到httpArticleUrls的List<string>中。

 

7:已经得到了某人的从2005年到2010年之间的所有文章了,剩下的就是发送Http请求去获取数据,然后本地保存了。

保存采用的是CDOMessage这样的类,该类可以生成MHTML格式的文档。代码如下:

 

 

代码

 

 文章的以文章的标题为名字进行保存。如果文章的名称中包含非法的字符,进行替换。

CDO.CdoMHTMLFlags.cdoSuppressNone:代表不进行压缩。这样图片可以嵌入其中。

 

8:大致功能已经实现,但是代码还有很多地方可以优化的,名称命名等都可以进行修改下,速度,效率啊目前都还没考虑,没有自动下载附件的功能,需要的话其实也挺简单的,得到所有文章中的压缩文件,通过WebClient.DownLoadFile方法下载等。

9:附件下载:BlogDownLoader.rar






本文转自LoveJenny博客园博客,原文链接:http://www.cnblogs.com/LoveJenny/archive/2010/03/31/1701740.html,如需转载请自行联系原作者

目录
相关文章
|
3天前
|
存储 程序员
Typora设置 “图片自动保存到文档对应目录下” 的方法(亲测有效)
Typora设置 “图片自动保存到文档对应目录下” 的方法(亲测有效)
|
4月前
|
安全
猿大师办公助手网页在线安全浏览 Office Word 文档,只读打开 / 禁止编辑 / 禁止复制 / 禁止另存 / 禁止打印 / 禁止截屏
在企业 OA 系统或者在线协作办公场景中,有一些合同公文或者客户数据等重要文档需要我们在线共享给其他人,但是我们只希望其他人只能预览阅读文档,不能随便编辑修改文档,也禁止复制共享 Word 文档的内容到其他文档或者编辑器,不能将共享文件另存为本地文件夹,并且禁止用户打印该 Word 文档,那么该如何实现呢?
73 0
|
7月前
|
监控 算法 Java
记一次从任意文件下载到getshell
记一次从任意文件下载到getshell
82 0
|
11月前
|
Windows
win11系统用户名称为中文导致文件夹出现繁体字文件夹、系统路径配置错误修改教程(博主亲测,基于win11,系统文件保留)
win11系统用户名称为中文导致文件夹出现繁体字文件夹、系统路径配置错误修改教程(博主亲测,基于win11,系统文件保留)
798 0
|
缓存
Discuz!论坛如何去除隐藏文章内容图片鼠标经过时显示“下载附件”等信息解决方法本文来自:XM技术学习分享,原地址:http://xmwl.cc/mb/41.html
在discuz!系统中发帖上传图片,鼠标经过的时候会显示一个小菜单,显示图片的基本信息和下载链接,有些站长觉得每次鼠标经过的时候弹出这个体验不好希望去掉!本文来自:XM技术学习分享,原地址:http://xmwl.cc/mb/41.html
626 0
|
编解码 小程序 C#
python实现电子邮件附件指定时间段,批量下载以及C#小程序集成实现(一)
根据网上相关资料,使用python实现邮箱附件批量下载,然后打包生成exe后,虽是脱离了python环境便于她使用,可对于她们这些没有接触编程的人员来说,cmd命令行调用exe的操作不便于理解和操作。为此,界面化程序开发选择了C#,从而实现了C#调用python开发的exe来完成邮箱附件批量下载功能。
278 0
python实现电子邮件附件指定时间段,批量下载以及C#小程序集成实现(一)
|
编解码 小程序 C#
python实现电子邮件附件指定时间段,批量下载以及C#小程序集成实现(二)
根据网上相关资料,使用python实现邮箱附件批量下载,然后打包生成exe后,虽是脱离了python环境便于她使用,可对于她们这些没有接触编程的人员来说,cmd命令行调用exe的操作不便于理解和操作。为此,界面化程序开发选择了C#,从而实现了C#调用python开发的exe来完成邮箱附件批量下载功能。
260 0
python实现电子邮件附件指定时间段,批量下载以及C#小程序集成实现(二)
|
SQL 安全 前端开发
百度快照被改成博彩内容的解决办法
那如何确定网站是否被快照劫持?SINE安全老于给大家详细的介绍一下,首先可以打开百度站长工具,看下近期的收录是否异常,像收录突然猛增,百度的蜘蛛抓取次数是否多了很多,再一个看下site:www.***.com自己的网站,看最近一个月的收录,是否收录大量的世界杯体育,菠菜、QP等恶意内容的百度快照。再一个快照劫持的特征是,直接访问网站是不会出现跳转,从百度点击进入网站,会直接跳转到违规网站上去。我们sinesafe以实际的客户案例给大家看下,像下面这种收录内容,基本上就是网站快照被劫持了,也可以说是网站被黑客攻击了。
178 0
百度快照被改成博彩内容的解决办法
Redmine系统通过bug号解析页面内容及下载附件
Redmine系统通过bug号解析页面内容及下载附件
92 0