《精通Python网络爬虫:核心技术、框架与项目实战》——3.8 小结

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《精通Python网络爬虫:核心技术、框架与项目实战》——3.8 小结

华章计算机 2017-05-02 10:05:00 浏览1181
展开阅读全文

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第3章,第3.8节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.8 小结

1)聚焦网络爬虫,由于其需要有目的地进行爬取,所以对于通用网络爬虫来说,必须要增加目标的定义和过滤机制,具体来说,此时,其执行原理和过程需要比通用网络爬虫多出3步,即目标的定义、无关链接的过滤、下一步要爬取的URL地址的选取。

2)常见的网页更新策略主要有3种:用户体验策略、历史数据策略、聚类分析策略。

3)聚类分析可以依据商品之间的共性进行相应的处理,将共性较多的商品聚为一类。

4)在爬虫对网页爬取的过程中,爬虫必然需要访问对应的网页,此时,正规的爬虫一般会告诉对应网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别,我

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机