google高手必经之路

简介:
Google([url]www.Google.com[/url])是一个搜索引擎,由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。到Google的新闻中心([url]http://www.Google.com/press/index.html[/url]),你可以找到关于一切关于Google的历史和新闻资料。  

  搜索入门  

  第一次进入Google,它会根据你的操作系统,确定语言界面。需要提醒的是,Google是通过cookie来存储页面设定的,所以,如果你的系统禁用cookie,就无法对Google界面进行个人设定了。  

  Google的首页很清爽,LOGO下面,排列了四大功能模块:网站、图像、新闻组和目录服务。默认是网站搜索。现在进行第一次搜索实践,假定你是个搜索新手,想要了解一下搜索引擎的来龙去脉和搜索技巧。在搜索框内输入一个关键字“搜索引擎”, 选中“搜索中文(简体)网页”选项,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。  

  注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。  

  初阶搜索  

  上例中,单个关键字“搜索引擎”,搜索得的信息浩如烟海,而且绝大部分并不符合自己的要求,怎么办呢?我们需要进一步缩小搜索范围和结果。  

  1,搜索结果要求包含两个及两个以上关键字  

  一般搜索引擎需要在多个关键字之间加上“ ”,而Google无需用明文的“ ”来表示逻辑“与”操作,只要空格就可以了。现在,我们需要了解一下搜索引擎的历史,因此期望搜得的网页上有“搜索引擎”和“历史”两个关键字。  

  示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页  

  搜索:“搜索引擎 历史”  

  结果:已搜索有关搜索引擎 历史的中文(简体)网页。 共约有78,600项查询结果,这是第1-10项 。 搜索用时0.36秒。  

  用了两个关键字,查询结果已经从70多万项减少到7万多项。但查看一下搜索结果,发现前列的绝大部分结果还是不符合要求,大部分网页涉及的“历史”,并不是我们所需要的“搜索引擎的历史”。 怎么办呢?删除与搜索引擎不相关的“历史”。我们发现,这部分无用的资讯,总是和“文化”这个词相关的,另外一些常见词是“中国历史”、“世界历史”、“历史书籍”等。  

  2,搜索结果要求不包含某些特定信息  

  Google用减号“-”表示逻辑“非”操作。“A –B”表示搜索包含A但没有B的网页。  

  示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页  

  搜索:“搜索引擎 历史 -文化 -中国历史 -世界历史”  

  结果:已搜索有关搜索引擎 历史 -文化 -中国历史 -世界历史的中文(简体)网页。 共约有36,800项查询结果,这是第1-10项 。 搜索用时0.22秒。  

  我们看到,通过去掉不相关信息,搜索结果又减少了将近一半。第一个搜索结果是:  

  搜索引擎直通车≡搜索引擎发展历史  

  搜索引擎直通车, ... 搜索引擎专业介绍站点. ...  

  [url]www.se-express.com/about/about.htm[/url] - 14k - 网页快照 - 类似网页  

  非常符合搜索要求。另外,第八项搜索结果:  

  463搜索王  
  本站检索 整个网站 在此输入关键词. 你的当前  

  位置:首页 >> Internet搜索手册 >> 搜索引擎的历史. ...  

  [url]www.cnco.net/search/history.htm[/url] - 21k - 网页快照 - 类似网页  

  也符合搜索要求。但是,10个结果只有两个符合要求,未免太少了点。不过,在没有更好的策略之前,不妨先点开一个结果看看。点开se-express.com的这个名为“搜索引擎发展历史”的网页,我们发现,搜索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关的。此外,搜索引擎似乎有个核心程序,叫“蜘蛛”,而最早成型的搜索引擎是“Lycos”,使搜索引擎深入人心的是“Yahoo”。了解了这些信息,我们就可以进一步的让搜索结果符合要求了。  

  注意:这里的“ ”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“搜索引擎 - 文化”,搜索引擎将视为关键字为“搜索引擎”和“文化”的逻辑“与”操作,中间的“-”被忽略。


  6.3,搜索结果至少包含多个关键字中的任意一个。  

  Google用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。在上例中,我们希望搜索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个,这样可以进一步的精简搜索结果。  

  示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。  

  搜索:“搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化”  

  结果:已搜索有关搜索引擎 历史 archie OR 蜘蛛 OR lycos OR yahoo -文化的中文(简体)网页。 共约有8,400项查询结果,这是第1-10项 。 搜索用时0.16秒。  

  我们看到,搜索结果缩小到8千多项,前20项结果中,大部分都符合搜索要求。如果你想了解一下解搜索引擎的历史发展,就不妨研究一下现在搜索到的结果吧。  

  注意:“与”操作必须用大写的“OR”,而不是小写的“or”。  

  在上面的例子中,我介绍了搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法:目标信息一定含有的关键字(用“ ”连起来),目标信息不能含有的关键字(用“-”去掉),目标信息可能含有的关键字(用“OR”连起来)。  

  7,杂项语法  

  7.1,通配符问题  

  很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用""引起来。比如,“"以*治国"”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。  

  7.2,关键字的字母大小写  

  Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。  

  7.3,搜索整个短语或者句子  

  Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。  

  示例:搜索关于第一次世界大战的英文信息。  

  搜索:“"world war I"”  

  结果:已向英特网搜索"world war i". 共约有937,000项查询结果,这是第1-10项 。 搜索用时0.06秒。  


  7.4,搜索引擎忽略的字符以及强制搜索  

  Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。  

  示例:搜索关于www起源的一些历史资料。  

  搜索:“www的历史 internet”  

  结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。 共约有75,100项查询结果,这是第1-10项 。 搜索用时0.22秒。  

  我们看到,搜索“www的历史 internet”,但搜索引擎把“www”和“的”都省略了。于是上述搜索只搜索了“历史”和“internet”。这显然不符合要求。这里我顺便说一点搜索引擎分词的知识。当我们在搜索“www的历史”的时候,搜索引擎实际上把这个短语分成三部分,“www”、“的”和“历史”分别来检索,这就是搜索引擎的分词。所以尽管你输入了连续的“www的历史”,但搜索引擎还是把这个短语当成三个关键字分别检索。  

  如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。  

  搜索:“+www +的历史 internet”  

  结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有25,000项查询结果,这是第1-10项 。 搜索用时0.05秒。  

  另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I””中,“I”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。  

  搜索:“"www的历史" internet”  
  结果:已搜索有关"www的历史" internet的中文(简体)网页。 共约有7项查询结果,这是第1-6项 。 搜索用时0.26秒。  

  我们看到,这一搜索事实上把“www的历史”作为完整的一个关键字。显然,包含这样一个特定短语的网页并不是很多,不过,每一项都很符合要求。  

  注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。  


  8,进阶搜索  

  上面已经探讨了Google的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。  

  8.1,对搜索的网站进行限制  

  “site”表示搜索结果局限于某个具体网站或者网站频道,如“[url]www.sina.com.cn[/url]”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。  

  示例:上著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯。  

  搜索:“"search engine" tips site:[url]www.zdnet.com[/url] OR site:[url]www.cnet.com[/url]”  

  结果:已在[url]www.zdnet.com[/url]内搜索有关"search engine" tips OR site:[url]www.cnet.com[/url]的网页。 共约有1,040项查询结果,这是第1-10项 。 搜索用时0.09秒。  

  注意,在这里Google有个小BUG。“已在[url]www.zdnet.com[/url]内搜索…”,其实应该表述成“已在[url]www.zdnet.com[/url]和[url]www.cnet.com[/url]内搜索…”。  

  示例:搜索新浪科技频道中关于搜索引擎技巧的信息。  

  搜索:“搜索引擎 技巧 site:tech.sina.com.cn”  

  结果:已在tech.sina.com.cn搜索有关搜索引擎 技巧 的中文(简体)网页。 共约有163项查询结果,这是第1-10项 。 搜索用时0.07秒。  

  注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。  

  8.2,在某一类文件中查找信息  

  “filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。  

  示例:搜索几个资产负债表的Office文档。  

  搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”  

  结果:已搜索有关资产负债表 filetype:doc OR filetype:xls OR filetype:ppt的中文(简体)网页。 共约有481项查询结果,这是第1-10项 。 搜索用时0.04秒。  

  注意,下载的Office文件可能含有宏病毒,谨慎操作。  

  示例:搜索一些关于搜索引擎知识和技巧方面的PDF文档  

  搜索:“"search engine" tips OR tutorial filetype:pdf”  

  结果:已向英特网搜索"search engine" tips OR tutorial filetype:pdf. 共约有12,600项查询结果,这是第1-10项 。 搜索用时0.22秒。  

  我们来看其中的一个结果:  

  [PDF]Search Engines Tips  

  文档类型: PDF/Adobe Acrobat - HTML 版  

  ... [url]http://www.google.com/press/zeitgeist.html[/url] See what people are searching on at Google.com  

  * Search Engine Watch [url]http://searchenginewatch.com/[/url] Some free tips ...  

  [url]www.allvertical.com/PromoKits/SearchEngineTips.pdf[/url] - 类似网页  

  可以看到,Google用[PDF]来标记这是一个PDF的文档检索,另外,它还给出了该PDF文档的HTML版本,该HTML版保留了文档的文字内容和结构,但没有图片。  

  8.3,搜索的关键字包含在URL链接中  

  “inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料














本文转自loveme2351CTO博客,原文链接:http://blog.51cto.com/loveme23/7710 ,如需转载请自行联系原作者




相关实践学习
基于函数计算快速搭建Hexo博客系统
本场景介绍如何使用阿里云函数计算服务命令行工具快速搭建一个Hexo博客。
相关文章
|
2月前
|
监控 安全 数据安全/隐私保护
【开源项目】Google OpenTitan,硬件安全的泰坦之箭?
【开源项目】Google OpenTitan,硬件安全的泰坦之箭?
56 0
|
3月前
|
人工智能 大数据 数据处理
云计算巨头大比拼:AWS、Azure和Google Cloud的终极对决
在云计算领域,AWS、Azure和Google Cloud三家巨头一直在竞相争夺市场份额。本文将从性能、可靠性、定价策略以及生态系统等方面对它们进行全面比较,帮助读者做出明智的选择。
|
6月前
|
机器学习/深度学习 人工智能 API
Google I/O 2023 大会上发布了一些令人兴奋的技术和产品,让我们一起来看看吧!
Google I/O 2023 大会上发布了一些令人兴奋的技术和产品,让我们一起来看看吧!
55 0
|
监控 IDE 算法
Google 的工程实践对初创公司有用吗?
“尊重工艺”是 Instawork 工程团队的一项指导原则。它鼓励我们以学习的态度去看待软件的工艺。为了这个目的,我在去年建立了“工程图书俱乐部”,以帮助我们从行业中的优秀企业和优秀人才汲取经验。我们的阅读的第一本图书是 Software Engineering at Google(暂无中文版:《谷歌的软件工程》)。我们很想了解谷歌是如何以巨大的规模进行软件开发的:数十亿行的代码,成千上万的开发人员。他们的任何做法是否适合像我们这样的小型团队?
102 0
Google 的工程实践对初创公司有用吗?
|
SQL 机器学习/深度学习 人工智能
顶尖架构师能从Google、Facebook、Netflix等公司学到哪些技术?
  架构设计到底是做什么?每个人都有不同的答案,毕竟在不同的时间,不同的系统层级,不同的需求背景上,架构设计的任务都有所不同。那么换另外一个问题,如何成为顶尖的架构师?   先使用程序员的拆分技能:成就优秀需要划分两个阶段,先成为普通的架构师,然后再想办法成就优秀。   虽然 2022 年已经过了六分之一,但我们的新年也就刚开始,常言道种树最好的时间是十年前,其次是现在,学习架构也是一样,希望以下的学习小结可以给你帮助。
162 0
|
定位技术 图形学
2014 Google Ideathon: 基于 Google 技术的创意盛宴
4月26日下午由上海 GDG 和 PMCamp 联合主办,同济创业意启、SegmentFault 等协办的 “2014 Google Ideathon” 在同济创业谷开幕。Ideathon 致力于推动有创意的工程师、产品经理、设计师、创业者等快速掌握设计创新产品的精益创业和敏捷设计思想,也帮助创业者做好创业相关产品和商业模型基础。
230 0
2014 Google Ideathon: 基于 Google 技术的创意盛宴
|
前端开发 JavaScript 程序员
来自Google, Pinterest 等公司顶级程序员的10条最佳实践
编程语言各有不同,不过区别不大。但用语言的人区别就大了。选择了一门语言你就选择了一个群落。
108 0
来自Google, Pinterest 等公司顶级程序员的10条最佳实践
|
机器学习/深度学习 算法 大数据
开源-开源公司-Google
Google开源软件一览(大数据和AI方向) 1. Tensorflow 官网地址:https://www.tensorflow.org/Github:https://github.com/tensorflow/tensorflow 2.
1738 0