《精通Python网络爬虫:核心技术、框架与项目实战》——导读

简介:


b7c8bb0126fcc213c6647ce519bc9fa9758c6c15

前  言

为什么写这本书

网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。

随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。

目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,国内的本版书籍屈指可数,故而我跟华章的副总编杨福川策划了这本书。本书的撰写过程中各方面的参考资料非常少,因此完成本书所花费的精力相对来说是非常大的。

本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。

同时,本书的另一个目的是,希望可以给大数据或者数据挖掘方向的从业者一定的参考,以帮助这些读者从海量的互联网信息中爬取需要的数据。所谓巧妇难为无米之炊,有了这些数据之后,从事大数据或者数据挖掘方向工作的读者就可以进行后续的分析处理了。

本书的主要内容和特色

本书是一本系统介绍Python网络爬虫的书籍,全书注重实战,涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。

本书的主要特色如下:

系统讲解Python网络爬虫的编写方法,体系清晰。

结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写出通用爬虫及聚焦爬虫,并掌握常见网站的爬虫反屏蔽手段。

有配套免费视频,对于书中的难点,读者可以直接观看作者录制的对应视频,加深理解。

拥有多个爬虫项目编写案例,比如博客类爬虫项目案例、图片类爬虫项目案例、模拟登录爬虫项目等。除此之外,还有很多不同种类的爬虫案例,可以让大家在理解这些案例之后学会各种类型爬虫的编写方法。

总之,在理解本书内容并掌握书中实例之后,读者将能胜任Python网络爬虫工程师方向的工作并学会各种类型网络爬虫项目的编写。此外,本书对于大数据或数据挖掘方向的从业者也非常有帮助,比如可以利用Python网络爬虫轻松获取所需的数据信息等。

本书面向的读者

Python网络爬虫初学者

网络爬虫工程师

大数据及数据挖掘工程师

高校计算机专业的学生

其他对Python或网络爬虫感兴趣的人员

如何阅读本书

本书分为四篇,共计20章。

第一篇为理论基础篇(第1~2章),主要介绍了网络爬虫的基础知识,让大家从零开始对网络爬虫有一个比较清晰的认识。

第二篇为核心技术篇(第3~9章),详细介绍了网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用Urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、手写糗事百科爬虫、手写链接爬虫、手写微信爬虫、手写多线程爬虫、浏览器伪装技术、Python网络爬虫的定向爬取技术及实例等。学完这一部分内容,读者就可以写出自己的爬虫了。这部分的爬虫编写采用的是一步步纯手写的方式进行的,没有采用框架。

第三篇为框架实现篇(第10~17章),主要详细介绍了如何用框架实现Python网络爬虫项目。使用框架实现Python网络爬虫项目相较于手写方式更加便捷,主要包括Python爬虫框架分类、Scrapy框架在各系统中的安装以及如何避免各种“坑”、如何用Scrapy框架编写爬虫项目、Scrapy框架架构详解、Scrapy的中文输出与存储、在Scrapy中如何使用for循环实现自动网页爬虫、如何通过CrawlSpider实现自动网页爬虫、如何将爬取的内容写进数据库等。其中第12章为基础部分,读者需要着重掌握。

第四篇为项目实战篇(第18~20章),分别讲述了博客类爬虫项目、图片类爬虫项目、模拟登录爬虫项目的编程及实现。其中,也会涉及验证码处理等方面的难点知识,帮助读者通过实际的项目掌握网络爬虫项目的编写。
勘误和支持

由于作者的水平有限,书中难免有一些错误或不准确的地方,恳请各位读者不吝指正。

致谢

感谢机械工业出版社华章公司的副总编杨福川老师与编辑李艺老师,在近一年的时间里,是你们一次次在我遇到困难的时候,给予我鼓励,让我可以坚持写下去。创作一本图书是非常艰苦的,除了技术知识等因素之外,还需要非常大的毅力。特别感谢杨福川在写作过程中对我各方面的支持,尤其是对我毅力的培养。

感谢CSDN、51CTO与极客学院,因为你们,让我在这个领域获得了更多的学员与支持。

感谢恩师何云景教授对我创业方面的帮助,因为有您,我才拥有了一个更好的创业开端及工作环境。

特别致谢

最后,需要特别感谢的是我的女友,因为编写这本书,少了很多陪你的时间,感谢你的不离不弃与理解包容。希望未来可以加倍弥补你那些错过吃的美食和那些错过逛的街道。

同时,也要感谢你帮我完成书稿的校对工作,谢谢你的付出与支持。因为有了你默默的付出,我才能坚定地走下去;因为有了你不断的支持,我才可以安心地往前冲。

感谢爷爷从小对我人生观、价值观的培养,您是一个非常有思想的人。

感谢远方的父母、叔叔、姐姐,那些亲情的陪伴是我最珍贵的财富。

谨以此书献给热爱Python的朋友们!

目  录

前 言
[第一篇 理论基础篇
第1章 什么是网络爬虫
1.1 初识网络爬虫 ](https://yq.aliyun.com/articles/90485/)
1.2 为什么要学网络爬虫
1.3 网络爬虫的组成
1.4 网络爬虫的类型
1.5 爬虫扩展——聚焦爬虫
1.6 小结
[第2章 网络爬虫技能总览
2.1 网络爬虫技能总览图 ](https://yq.aliyun.com/articles/90530/)
2.2 搜索引擎核心
2.3 用户爬虫的那些事儿
2.4 小结
[第二篇 核心技术篇
第3章 网络爬虫实现原理与实现技术
3.1 网络爬虫实现原理详解 ](https://yq.aliyun.com/articles/90544/)
3.2 爬行策略
3.3 网页更新策略
3.4 网页分析算法
3.5 身份识别
3.6 网络爬虫实现技术
3.7 实例——metaseeker
3.8 小结
第4章 Urllib库与URLError异常处理
4.1 什么是Urllib库
4.2 快速使用Urllib爬取网页
4.3 浏览器的模拟——Headers属性
4.4 超时设置
4.5 HTTP协议请求实战
4.6 代理服务器的设置
4.7 DebugLog实战
4.8 异常处理神器——URLError实战
4.9 小结
第5章 正则表达式与Cookie的使用
5.1 什么是正则表达式
5.2 正则表达式基础知识
5.3 正则表达式常见函数
5.4 常见实例解析
5.5 什么是Cookie
5.6 Cookiejar实战精析
5.7 小结
第6章 手写Python爬虫
6.1 图片爬虫实战
6.2 链接爬虫实战
6.3 糗事百科爬虫实战
6.4 微信爬虫实战
6.5 什么是多线程爬虫
6.6 多线程爬虫实战
6.7 小结
第7章 学会使用Fiddler
7.1 什么是Fiddler
7.2 爬虫与Fiddler的关系
7.3 Fiddler的基本原理与基本界面
7.4 Fiddler捕获会话功能
7.5 使用QuickExec命令行
7.6 Fiddler断点功能
7.7 Fiddler会话查找功能
7.8 Fiddler的其他功能
7.9 小结
第8章 爬虫的浏览器伪装技术
8.1 什么是浏览器伪装技术
8.2 浏览器伪装技术准备工作
8.3 爬虫的浏览器伪装技术实战
8.4 小结
第9章 爬虫的定向爬取技术
9.1 什么是爬虫的定向爬取技术
9.2 定向爬取的相关步骤与策略
9.3 定向爬取实战
9.4 小结
第三篇 框架实现篇
第10章 了解Python爬虫框架
10.1 什么是Python爬虫框架
10.2 常见的Python爬虫框架
10.3 认识Scrapy框架
10.4 认识Crawley框架
10.5 认识Portia框架
10.6 认识newspaper框架
10.7 认识Python-goose框架
10.8 小结
第11章 爬虫利器——Scrapy安装与配置
11.1 在Windows7下安装及配置Scrapy实战详解
11.2 在Linux(Centos)下安装及配置Scrapy实战详解
11.3 在MAC下安装及配置Scrapy实战详解
11.4 小结
第12章 开启Scrapy爬虫项目之旅
12.1 认识Scrapy项目的目录结构
12.2 用Scrapy进行爬虫项目管理
12.3 常用工具命令
12.4 实战:Items的编写
12.5 实战:Spider的编写
12.6 XPath基础
12.7 Spider类参数传递
12.8 用XMLFeedSpider来分析XML源
12.9 学会使用CSVFeedSpider
12.10 Scrapy爬虫多开技能
12.11 避免被禁止
12.12 小结
第13章 Scrapy核心架构
13.1 初识Scrapy架构
13.2 常用的Scrapy组件详解
13.3 Scrapy工作流
13.4 小结
第14章 Scrapy中文输出与存储
14.1 Scrapy的中文输出
14.2 Scrapy的中文存储
14.3 输出中文到JSON文件
14.4 小结
第15章 编写自动爬取网页的爬虫
15.1 实战:items的编写
15.2 实战:pipelines的编写
15.3 实战:settings的编写
15.4 自动爬虫编写实战
15.5 调试与运行
15.6 小结
第16章 CrawlSpider
16.1 初识CrawlSpider
16.2 链接提取器
16.3 实战:CrawlSpider实例
16.4 小结
第17章 Scrapy高级应用
17.1 如何在Python3中操作数据库
17.2 爬取内容写进MySQL
17.3 小结
第四篇 项目实战篇
第18章 博客类爬虫项目
18.1 博客类爬虫项目功能分析
18.2 博客类爬虫项目实现思路
18.3 博客类爬虫项目编写实战
18.4 调试与运行
18.5 小结
第19章 图片类爬虫项目
19.1 图片类爬虫项目功能分析
19.2 图片类爬虫项目实现思路
19.3 图片类爬虫项目编写实战
19.4 调试与运行
19.5 小结
第20章 模拟登录爬虫项目
20.1 模拟登录爬虫项目功能分析
20.2 模拟登录爬虫项目实现思路
20.3 模拟登录爬虫项目编写实战
20.4 调试与运行
20.5 小结

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
17天前
|
数据采集 安全 Python
python并发编程:Python实现生产者消费者爬虫
python并发编程:Python实现生产者消费者爬虫
24 0
python并发编程:Python实现生产者消费者爬虫
|
10天前
|
安全 数据库 C++
Python Web框架比较:Django vs Flask vs Pyramid
【4月更文挑战第9天】本文对比了Python三大Web框架Django、Flask和Pyramid。Django功能全面,适合快速开发,但学习曲线较陡;Flask轻量灵活,易于入门,但默认配置简单,需自行添加功能;Pyramid兼顾灵活性和可扩展性,适合不同规模项目,但社区及资源相对较少。选择框架应考虑项目需求和开发者偏好。
|
29天前
|
数据采集 数据挖掘 调度
异步爬虫实践攻略:利用Python Aiohttp框架实现高效数据抓取
本文介绍了如何使用Python的Aiohttp框架构建异步爬虫,以提升数据抓取效率。异步爬虫利用异步IO和协程技术,在等待响应时执行其他任务,提高效率。Aiohttp是一个高效的异步HTTP客户端/服务器框架,适合构建此类爬虫。文中还展示了如何通过代理访问HTTPS网页的示例代码,并以爬取微信公众号文章为例,说明了实际应用中的步骤。
|
4天前
|
前端开发 数据挖掘 API
使用Python中的Flask框架进行Web应用开发
【4月更文挑战第15天】在Python的Web开发领域,Flask是一个备受欢迎的轻量级Web框架。它简洁、灵活且易于扩展,使得开发者能够快速地构建出高质量的Web应用。本文将深入探讨Flask框架的核心特性、使用方法以及在实际开发中的应用。
|
6天前
|
关系型数据库 数据库 开发者
Python中的Peewee框架:轻量级ORM的优雅之旅
【4月更文挑战第13天】在Python的众多ORM框架中,Peewee以其轻量级、简洁和易于上手的特点,受到了许多开发者的青睐。Peewee的设计理念是“小而美”,它提供了基本的ORM功能,同时保持了代码的清晰和高效。本文将深入探讨Peewee的核心概念、使用场景以及实战应用,帮助读者更好地理解和使用这一框架。
|
6天前
|
SQL API 数据库
Python中的SQLAlchemy框架:深度解析与实战应用
【4月更文挑战第13天】在Python的众多ORM(对象关系映射)框架中,SQLAlchemy以其功能强大、灵活性和易扩展性脱颖而出,成为许多开发者首选的数据库操作工具。本文将深入探讨SQLAlchemy的核心概念、功能特点以及实战应用,帮助读者更好地理解和使用这一框架。
|
7天前
|
网络协议 Java API
Python网络编程基础(Socket编程)Twisted框架简介
【4月更文挑战第12天】在网络编程的实践中,除了使用基本的Socket API之外,还有许多高级的网络编程库可以帮助我们更高效地构建复杂和健壮的网络应用。这些库通常提供了异步IO、事件驱动、协议实现等高级功能,使得开发者能够专注于业务逻辑的实现,而不用过多关注底层的网络细节。
|
12天前
|
数据采集 存储 前端开发
Python爬虫如何快速入门
写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。
17 0
|
20天前
|
前端开发 JavaScript 数据管理
描述一个使用Python开发Web应用程序的实际项目经验,包括所使用的框架和技术栈。
使用Flask开发Web应用,结合SQLite、Flask-SQLAlchemy进行数据管理,HTML/CSS/JS(Bootstrap和jQuery)构建前端。通过Flask路由处理用户请求,模块化代码提高可维护性。unittest进行测试,开发阶段用内置服务器,生产环境可选WSGI服务器或容器化部署。实现了用户注册登录和数据管理功能,展示Python Web开发的灵活性和效率。
14 4