一键构造你的博客目录

简介:

最近看了一下吴军的数学之美。书很好,废话我就不多少了。看了第9章图论和网络爬虫,一直都觉得网络爬虫很牛B,搜索引擎不就是用爬虫爬网页的吗,于是想写一个简单的爬虫来爬网页试试,最先想到的就是给自己的博客建一个目录,够小够简单了吧,于是就有了这篇文章,简单的分享一下,先申明我的实现很简单没有技术含量,在看下文之前可以先看看 我的博客目录。              源码必共享

简单介绍一下网络爬虫的原理:给你一个网页地址,先把这个网页下载下来,然后分析这个网页的内容,得到这个网页中的所有链接,然后下载这些网页,继续分析下载。这样就能下载互联网上的很多网页。原理就这么简单,实现起来就不那么容易了。由于深入不了只能说简单的。

构造我的博客目录思路简单分析。获得你的所有文章的地址及标题,然后将这些文章分类。你的文章其实是已经分类好了的,只用得到你的文章的所有分类,然后根据分类得到所有分类下的文章,就可以得到你所有的文章及其分类,构造你的博客目录就容易了。

被否定了的思路一:随便拿到我的一篇文章的地址,下载这篇文章,然后分析这个地址,得到这篇文章里面的所有链接,按照一定的规则得到我的文章地址,即排除无用的连接,然后以爬虫的思路得到我的所有文章,由于每篇文章都有它的分类,所以很快就能构造我的博客目录了。然而由于博客园的实现不是我想的那样,在下载一篇文章的时候,没有下面的内容,因为下面的内容就像一个双向链表一样将我的所有文章连接起来了,我只要知道一篇文章的地址,通过这个”双向链表“我就能得到我的所有文章了,可就是下载网页里偏偏没有下面的内容,于是这个最接近爬虫的方法被PASS掉了。 

被否定了的思路二。每个人的文章都是分页显示的,我就可以下载这些内容,然后就可以得到我的所有文章,可还是有个问题,跟上面一样的原因,妹的,下载的网页中没有文章的分类,得到了所有的文章,却不知道文章的分类,叫我怎么构造目录啊。于是又被PASS掉了。

 

要构造我的博客目录,这么简单的需求方法当然是很多的了,于是用了个不太想爬虫的方法。就是上面所说的,得到所有文章的分类,下载每个分类下的文章,构造博客目录。获得我的博客分类的方法很简单,如获取我的文章分类方法如下:

请求这个地址:http://www.cnblogs.com/hlxs/mvc/blog/sidecolumn.aspx

传入参数blogApp=hlxs;(hlxs是我在博客园的ID)

这样就得到了我文章的所有分类,然后按照分类得到分类下的所有文章,在构造博客目录就简单了。在这个过程中只要知道某人在博客园的ID就能构造它的博客目录,我说一键构造你的博客目录不为过吧。

如果你也想构造你的博客目录,可以先看看我的博客目录,构造你的博客目录很简单,运行程序,输入你的博客园ID,会自动生成一个”我的博客目录.txt”,将文件的内容以源码的方式发表就行。



本文转自啊汉博客园博客,原文链接:http://www.cnblogs.com/hlxs/archive/2013/02/20/2918760.html
目录
相关文章
|
4月前
【博客项目】—案例初始化(二)
【博客项目】—案例初始化(二)
【博客项目】—案例初始化(二)
|
9月前
|
Linux Windows
【Linux命令200例】用ln创建链接文件
ln命令是Linux系统中的一个常用命令,用于创建链接文件。链接文件可以理解为指向另一个文件或目录的快捷方式,类似于Windows系统中的快捷方式。在Linux中,链接文件分为两种类型:硬链接(Hard Link)和符号链接(Symbolic Link,也称软链接)。
152 0
|
11月前
|
存储
图解LeetCode——1233. 删除子文件夹
图解LeetCode——1233. 删除子文件夹
59 0
通过ln链接目录到目标
通过ln链接目录到目标
35 0
|
API Apache 数据库
博客项目(4、初始化)
博客项目(4、初始化)
79 0
|
自然语言处理 Java 程序员
小刚带你深入浅出系列2-链接和装载
1、前言链接和装载是一个深度的话题,但其实也没有那么难理解,只是在程序员的历程中很少遇到罢了,但是遇到的时候会比较束手无策,这也是为什么我想写一篇文章展开这个话题的原因。另一个原因是我看到百度上也有很多关于链接和装载的原创文章,给我的感觉是他们都是摘抄《程序员的自我修养》这本书,看似理解又不理解的感觉。毕竟百度就是百度,国内的原创文章少之又少和Google的文章真的是大相径庭。这点我想了一下也不奇
|
存储 Java 数据库连接
HyperSQL 链接参数中文件的路径
如果我们在系统中配置下面的连接参数: spring.datasource.url=jdbc:hsqldb:file:~/db/cwiki-us-jpetstore 我们怎么知道 hsqldb 数据库的存储路径在哪里? 请参考下面的解答: 在 Windows 系统中,如果你登录的用户名为 yhu 的话。
654 0
为博客园添加目录的方法总结+自定义博客园样式
参考链接: http://www.cnblogs.com/real-me/p/8336741.html https://www.cnblogs.com/xuehaoyue/p/6650533.html http://www.
2010 0
|
SQL 关系型数据库 数据库
查看与修改链接学习笔记
版权声明:转载请注明出处:http://blog.csdn.net/dajitui2024 https://blog.csdn.net/dajitui2024/article/details/79396633 1.
1057 0
|
存储
关于链接文件的探讨
跨平台系列汇总:http://www.cnblogs.com/dunitian/p/4822808.html#linux 偶尔在用,其实就是软链接和硬链接两种 软链接 和 win里面的快捷方式差不多,就不多说 探讨下硬链接,有点类似于git的存储方式了,你我各有一份共同修改,你挂了我还有 ...
693 0

热门文章

最新文章