1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门

简介:  一: 1  搜索引擎的历史 萌芽:Archie、Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页   2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)---


一:

1  搜索引擎的历史

萌芽:ArchieGopher

Archie:搜索FTP服务器上的文件

Gopher:索引网页

 

2  起步:Robot(网络机器人)的出现与spider(网络爬虫)

Robot基于网络的,可以执行特定任务的程序

Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序

 

3   发展阶段:excite,galaxy,yahoo这些公司做搜索

 

4   繁荣:infoseek,AltaVista,Google和百度

 

5   搜索引擎的原理:

有三步

A  爬取资源

B  建立索引

C  用户索引

  搜索技术能用来做什么?

案例:

A  使用wordCtrl+F进行检索:原理:从文档自上而下搜索

B  windows的资源管理器中看搜索:搜索每个文件夹,检索需要的文件

C MyEclipse中的help contents:原理:站内搜索

D BaiduGoogle提供互联网中各种资源的搜索:原理:垂直搜索

 

三:信息检索的过程

A  构建文本库

B  建立索引

C  进行搜索

D  对结果进行排序

 

四:倒排索引

倒排搜索区别于传统查找,传统线性查找,按照信息从前到后,依次查找(效率),倒排搜索,记录信息出现的位置,通过索引内容快速找到关键信息,类似书记的目录!

 

五:什么是Lucene(全文检索框架,apache提供)

A  Lucene是一套用于全文检索和搜寻的开源程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开发源代码工具

 

B Lucene是提供了一个简单却强大的应用程式接口,能够做全文检索索引和搜寻,在Java开发环境里Lucene是一个成熟的免费的开放源代码工具。

 

 

全文检索:对数据建立全文索引,根据全文索引搜索信息

 

solr 是高性能搜索服务器,基于Lucene

 

Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品

Lucene是搜索引擎的开发技术,Lucene并不是一个现成的产品

 

官网:http://lucene.apache.org

  什么是全文件检索

全文检索:对需要查找数据的每一个单词建立索引

 

七:Lucene快速入门(5个步骤)

A 下载Lucene的卡发包,Lucene-3.6.2.zip

B 导入jar包到工程Lucene-core-3.6.2.jar

C 将数据转换成为文档对象Document

D 建立索引Index

E 查询索引获取数据

 

 

 

目录
相关文章
|
2月前
|
存储 数据采集 人工智能
在搜索引擎中引入AIGC,需要注意哪些问题?
【2月更文挑战第17天】在搜索引擎中引入AIGC,需要注意哪些问题?
33 5
在搜索引擎中引入AIGC,需要注意哪些问题?
|
12月前
|
分布式计算 算法 Java
白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端
白话Elasticsearch16-深度探秘搜索技术之使用原生cross-fiedls技术解决搜索弊端
71 0
|
12月前
|
分布式计算 自然语言处理 Java
白话Elasticsearch06- 深度探秘搜索技术之手动控制全文检索结果的精准度
白话Elasticsearch06- 深度探秘搜索技术之手动控制全文检索结果的精准度
66 0
|
12月前
|
索引
白话Elasticsearch20-深度探秘搜索技术之使用rescoring机制优化近似匹配搜索的性能
白话Elasticsearch20-深度探秘搜索技术之使用rescoring机制优化近似匹配搜索的性能
49 0
|
存储 自然语言处理 搜索推荐
快速上手搜索引擎的秘密武器——Lucene
这篇文章介绍下这个 Lucene,下篇写写 ElasticSearch , 然后再继续填 Spring 的坑 🕳 内容的话就很基础啦🐖,希望能帮你快速入门,了解下它
119 0
|
存储 自然语言处理 运维
搜索lucene概念扫盲
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本篇回归基础,从概念介绍起。
99 0
|
存储 缓存 搜索推荐
郁金香搜索引擎的方案
先介绍学心理学的时候记住的两个把妹秘籍:   1>巴甫洛夫把妹法:巴甫洛夫的狗的反射试验上学的时候大家都应该学过,天天给狗喂食的时候摇铃,后来不喂食只摇铃狗还是分泌唾液。应用到把妹这个非常有实际意义的事情上面就是:每天给妹子送早晨,等人家形成了习惯,突然不送了,人家就开始觉得不自在了,开始各种想这个男孩纸~~   2>吊桥效应:在吊桥上,由于危险的情境,人们会不自觉地心跳加快,错把由这种情境引起的心跳加快理解为对方使自己心动,才产生的生理反应,故而对对方滋生出爱情的情愫。   心理学是门很实用的学问吧[偷笑][偷笑]。
郁金香搜索引擎的方案
|
搜索推荐
字节跳动入局全网搜索:从0到1打造通用搜索引擎
7月31日晚,字节跳动在其“字节跳动招聘”公众号上正式对外为“字节跳动搜索部门”招聘员工。 图源:字节跳动招聘公众号据招聘广告显示,字节跳动要做全网搜索。搜索团队有来自公司推荐/广告/AILab的,也有来自Google/百度/Bing/360搜索的,涵盖了推荐、广告、IR、NLP、CV等技术,已跑在NLP、推荐等技术的最前线,应用大规模机器学习等方法,同时也在研究更适合搜索的秘密武器。
|
存储 自然语言处理 搜索推荐
后端技术杂谈1:搜索引擎基础倒排索引
什么是倒排索引?     见其名知其意,有倒排索引,对应肯定,有正向索引。      正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。
|
存储 自然语言处理 搜索推荐
搜索引擎索引的基本研究
本文主要介绍了搜索引擎技术中的倒排索引技术,并对索引数据结构,索引建立方法进行了研究。文章可分为四个部分:(1)索引基础,该部分介绍了我文档矩阵与倒排索引基本概念;(2)单词词典,该部分介绍倒排索引词典部分的数据结构:哈希加链表法、树形结构;(3)倒排列表,该部分介绍了倒排项与倒排列表的概念;(4)建立索引,该部分介绍了构建倒排索引的三种方法:两遍文档遍历法、排序法、归并法。
1643 0