《精通Python网络爬虫:核心技术、框架与项目实战》——2.2 搜索引擎核心

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《精通Python网络爬虫:核心技术、框架与项目实战》——2.2 搜索引擎核心

华章计算机 2017-05-02 17:41:00 浏览1761
展开阅读全文

本节书摘来自华章出版社《精通Python网络爬虫:核心技术、框架与项目实战》一书中的第2章,第2.2节,作者 韦 玮,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 搜索引擎核心

爬虫与搜索引擎的关系是密不可分的,既然提到了网络爬虫,就免不了提到搜索引擎,在此,我们将对搜索引擎的核心技术进行一个简单的讲解。

图2-2所示为搜索引擎的核心工作流程。首先,搜索引擎会利用爬虫模块去爬取互联网中的网页,然后将爬取到的网页存储在原始数据库中。爬虫模块主要包括控制器和爬行器,控制器主要进行爬行的控制,爬行器则负责具体的爬行任务。

然后,会对原始数据库中的数据进行索引,并存储到索引数据库中。

当用户检索信息的时候,会通过用户交互接口输入对应的信息,用户交互接口相当于搜索引擎的输入框,输入完成之后,由检索器进行分词等操作,检索器会从索引数据

网友评论

登录后评论
0/500
评论