独家 | 一文读懂网络爬虫

  1. 云栖社区>
  2. 数据派THU>
  3. 博客>
  4. 正文

独家 | 一文读懂网络爬虫

行者武松 2017-10-10 14:19:41 浏览4176
展开阅读全文

640?wx_fmt=png&wxfrom=5&wx_lazy=1


前言


在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了“爬虫”技术的飞速发展。


网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。


传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。


另外,

网友评论

登录后评论
0/500
评论
行者武松
+ 关注
所属云栖号: 数据派THU