Python爬虫采集CloudBlog网站的文章

  1. 云栖社区>
  2. 博客>
  3. 正文

Python爬虫采集CloudBlog网站的文章

朱培 2017-07-27 17:03:00 浏览772
展开阅读全文

    本文通过使用python爬虫,来将一个网站中的文章获取下来,包括标题、发表时间、作者、文章内容等基本信息,并且将这些数据存储到数据库中,是一个非常完整的流程。获取首页所有的文章连接,并存放到URL集合中,然后再一个个的访问这些采集到的链接,来访问,并再次解析出文章详细的内容。 
     最近有个需求,需要采集金融财经类的新闻文章,获取首页所有的文章连接,并存放到URL集合中, 在本文中,以采集CloudBlog的博客文章为例,如下图所示,首先采集这个页面的信息,主要是先采集列表,从列表中获取URL。为防止重复访问,设置一个历史访问,用于对新添加的URL进行过滤。 解析DOM树,获取文章相关信息,并将信息存储到Article对象中。