初学指南| 用Python进行网页抓取

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

初学指南| 用Python进行网页抓取

小旋风柴进 2017-05-02 02:51:00 浏览1897
展开阅读全文

0?wx_fmt=jpeg

引言

从网页中提取信息的需求日益剧增,其重要性也越来越明显。每隔几周,我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标。这是一个问题或产品,其功效更多地取决于网页抓取和信息提取(数据集)的技术,而非以往我们使用的数据汇总技术。


网页信息提取的方式

从网页中提取信息有一些方法。使用API可能被认为是从网站提取信息的最佳方法。几乎所有的大型网站,像Twitter、Facebook、Google、Twitter、StackOverflow都提供API以更为结构化的方式访问该网站的数据。如果可以直接通过API得到所需要的信息,那么这个方法几乎总是优于网页抓取方法。因为如果可以从数据提供方得到结构化的数据,为什






















































网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属云栖号: 大数据文摘