搜 索 引 擎 说 明

如果知道了网上的不同的搜索工具是如何设计的,特别是知道了每个工具的特殊的规则(对不同的工具这常常是不同的),就能更好地使用这些工具。本文将介绍这方面的知识,文中提到的工具是按其实用的程度组织的,并简要地介绍了它们的规则。文中还举出了一些简单的例子,如果想得到更详细的例子,请查看站点上的帮助文档。

一、AltaVista(http://www.altavista.com)

AltaVista是网上搜索引擎的领先者, 它有最大的、详尽 的索引。但这并不是说它是无所不包、无所不能的。在使 用不同的搜索引擎时,不同的人和不同的索引策略导致的 是不同的结果。 不过AltaVista总能返回有用的信息,但 由于没有对内容进行选择,它的“信噪比”也是最大的。

AltaVista可以对网页和很多Usenet Newgroups进行查找。 它可以对返回的结果的格式进行控制,分为标准、压缩和 详细三种格式。它还能提供简单的和高级的搜索。高级的 搜索包括了简单的搜索的所有特性,还允许使用布尔运算 符和接近操作符、括号等,查找的结果按关键词排序。

1.简单的搜索

要进行有效的搜索,最好输入描述所感兴趣的主题的尽可 能多而精确的词或词组。提供的词组越精确,检索结果就 越好。

大小写敏感性:若输入的都是小写字母的词,则对大小写 不敏感; 而含大写字母的词则是对大小写敏感的。 如 HotDog只搜索含有这个词的内容,而hotdog则不论大小写 都搜索。

词组:要把词合成词组,应把它们用上双引号。"Abraham Lincoln"查那些含有Abraham Lincoln这个名字的内容, 区分大小写。另一种链接单词的方法是在它们的中间插入 分号,如:

Abraham;Lincoln;Gettysburg;Address.

要求的单词:如果要求特定单词包含在索引的文档中,可 以在它前面加一个+号, 如:+HotDog。并且在+号和单词 之间不能有空格。

排除的单词:如果要排除含有特定单词的文档,可以在它 前面加一个-号: -mustard。 如果想查找F. Scott Fitzgerald 而不含有Gatsby, 应这样: +"F. Scott Fitzgerald"-Gatsby。

通配符:进行简单查找的时候,可以在单词的末尾加一个 通配符来代替任意的字母组合。AltaVista的通配符是*号。 如,butt*可以代表butt、butts、butter和button等。星 号不能用在单词的开始或中间, 它最多可以代替5个小写 的字母。

等级: AltaVista会为查得的结果按下列的标准赋予一个 可靠等级:

①在结果的前几个单词中含有要查找的单词(特别是网页 的标题); ②在结果中要查找的单词很靠近; ③该结果比其它的结果含有更多的要查找的词。

权衡了这些因素后,最高可靠等级的结果的得分是1.000。 所有的其它结果按可靠度给与低于1.000的一个分。 这并 不是说得分是1.000的结果是最好的资源, 它只是最好地 满足了分级的算法。除非你知道要查找的文档的标题,否 则得分第一的结果未必是“最好”的结果。例如,要查找 标题为“Mr.Willam Shakespeare and the Internet”的 文档,可以通过把该词组引起来来得到确切的网页。但如 果分别地输入这几个词, 或只是查找“shakespeare”就 会查得太多的无用的结果。

对使用AltaVista的最有用的建议是, 由于它的索引是基 于整个单词的正文的,在描述查找的单词时越精确越好, 还要去掉那些不感兴趣的单词。

2.高级的搜索

高级搜索包含了简单的搜索的所有特性,还可以有布尔和 接近操作符、 括起来的逻辑组合等。 布尔和接近搜索: Alta Vista支持二元操作符AND、 OR、NEAR和一元操作符 NOT。可以使用下列符号来代替单词:&(AND) 、|(OR)、~ (NEAR)、!(NOT)。但作者建议使用单词而不是符号,因为 单词容易记忆而且对其它的搜索要求也通用。最好用括号 把单词组括起来,不过这并不是必须的。

例子:

horses AND carriages

"Abraham Lincoln" AND "civil war"

("Abraham Lincoln") AND NOT ("civil war")

(注意:不要使用x NOT y, 必须是x AND NOT y。)

"Thomas Middleton" OR "Beaumont and Fletcher"

(dogs OR cats) AND ("pet care")

"William Shakespeare" NEAR internet

结果等级:使用高级的搜索还能指定AltaVista 用于排序 结果的关键词。这样,虽然对查找的结果没有影响,但可 能最感兴趣的结果会放在最前面。

二、Excite(http://www.excite.com)

Excite使用的是基于关键词或基于概念的正文和主题搜索。 按Excite的作者的话来说,概念搜索不是只简单地查找含 有要查找的单词的文档,同时还搜索同要查找的概念相关 的文档。缺省的查找是概念查找。用户可以查找网上的文 档、评论、UseNet NewsGroup或分类区。在同一个搜索框 内可以输入简单的或更高级的搜索,包括布尔搜索和逻辑 组。用户不能像其它一些搜索引擎一样控制搜索结果的格 式。

对于所有的搜索引擎来说,在搜索框内输入的描述单词越 多,查得的相关结果越少。按照它的分级算法,在搜索框 内出现的一个单词的次数越多,含有它的结果的等级越高: dog dog dog cat将使含dog的结果的等级比含cat的结果 的等级高。

Excite中要求的单词和排除的单词的使用方法同 AltaVista一样,使用+号和-号。

布尔搜索: Excite支持二元操作符AND、OR、AND NOT 和 一元操作符NOT。 它也支持用括号来构成逻辑组。缺省的 关键词使用的是隐式的OR , 即它搜索含有指定的任意的 单词。

例子:

(illegal AND immigrant) AND NOT (Mexico)

alien OR ufo

alien AND NOT ufo

football AND (rugby OR soccer)

三、Webcrawler(http://www.webcrawler.com)

现在由America On-Line公司赞助的Webcrawler 是一个杰 出的搜索引擎, 它样子很象 AltaVista 。实际上,它在 高级搜索方面的功能要比AlataVista强。产量接近操作符 NEAR和ADJ,它还有由GNN的编辑们事先分好类的主题。它 实现了基于主题的搜索,这方面很象Excite。最后,它还 有自己的优点,因为有这样一个大公司支持,它的商业化 的色彩不象Excite和Lycos那样浓。

Webcrawler号称支持“自然语言搜索”,所以可以输入象 “highest mountain in the world(世界上最高的山)” 这样的查询条件。它抛弃了无意义的词,对其余的词做模 糊的AND搜索。 含有所有的词的页面等级最高,但也能查 到只含一个词的页面。 这是那些最佳引擎的通用策略。 Webcrawler的不同之处在于它定义的无意义的词相当广。

显示控制:可以选择显示结果的网页标题或标题和小结都 显示。 也可以选择每页显示的结果数:10、25或100。小 结模式将显示该页的摘要, 它的URL,它的可靠等级的数 字显示。

可靠等级:在每个结果的旁边有一个看起来有些象六月的 幼虫的图标, 幼虫越满,结果的可靠等级越高。当选择小 结模式时,显示的是数字,但好象只是结果中含有的搜索 词出现的次数。

词组、 布尔和接近操作符的使用类似于AltaVista。但它 的接近操作符很有特色。 可以使用NEAR/n,n是两个被搜 索词之间的单词的数目, 如: Shakespeare NEAR/5 Internet。 如果不输入n,表示两个词挨在一起。为了控 制挨在一起的两个词之间的顺序,可以使用 ADJ 操作符, 如: reverse ADJ osmosis,表示reverse必须在osmosis 之前。

Webcrawler不支持要求/排除的单词的查找, 也不支 持通配符。

主题目录: 这也是 Webcrawler 的一个特点。 目录是由 Global Network Navigator的编辑们创建的,相当的好。

总的来说,Webcrawler在使用的简便和实现的接近操作符 搜索上是很突出的, 但它的索引好象不如AltaVista和 Lycos那么广泛。 它还提供了一些特殊的服务,如“反向 搜索网络”,可以看谁连到了你的网页上,还有网络统计 功能等。

四、Lycos(http://www.lycos.com)

Lycos是最早出现的搜索引擎之一。 随着网络的爆炸,出 现了更好的搜索引擎,虽然Lycos不象其它一些那么杰出, 但它仍然又好又快。它提供关键词和主题查询(主题查询 叫做目录服务)。它的优点在于它的速度快、使用简便、 索引很大, 它的弱点则是它不支持布尔搜索和其它如 ALtaVista、Webcrawler或Excite能提供的一些高级搜索。

显示控制:可以控制搜索的词之间的关系--OR(缺省)、 AND等, 每页显示结果的数目(10、20、30或40),和结 果的内容(标准、小结或详细)等。

包含/排除和等级: Lycos不提供要求/排除单词的功能, 但可以在一个单词前加一个"-"号, 表示在给结果定等级 时, 不考虑这个单词,如:dogs-doberman,也能查到含 doberman的页面,但那些页面不会是很靠前的结果。

通配符: 它的通配符是$符号。 如gen$ 表示 genetic、 genesis、general等。它还提供了英文句号(.)的使用, 可以禁止扩展一个单词。如gene. ,只能得到gene,而得 不到genetics和general。

五、Opentext(http://www.opentxt.com)

Opentext早期流行过一阵,现在它的帮助页面上的信息已 经不再精确了。不过,它还是一个很好的搜索工具。

Opentext不支持通配符,但它能很好地处理复数。用户不 用输入单词的复数,它能自动地查找这些单词的复数形式。

接近操作符:它实现了NEAR操作符,但范围是80个单词, 不能调整。 还实现了FOLLOWED BY操作符 (就象 Webcrawler的ADJ操作符) ,但范围也是不能调整的80个 单词。这么大的范围降低了操作符的用处。

Opentext不局限于整个单词, 所以搜索head也能查到 headstrong 和headline。但如果输入了复数而不是单数, 就查不到这个词。所以,对于Opentext来说,正确的拼写 是很重要的。

六、Infoseek(http://www.infoseek.com)

Infoseek以前曾经是Netscape的缺省搜索引擎。它并不是 最好的。它的优点在于它的速度快和使用方便。它的缺点 在于它缺乏高级功能(不支持布尔搜索)。它既是搜索引 擎, 又是可搜索的主题目录, 可以搜索UseNet NewsGroups、E-Mail地址和Web的FAQ。

搜索是对大小写敏感的。大写的单词被当成正确的名词来 查找。相邻的大写单词被认为是一个词组。大写的词组必 须被逗号分开,如:The Great Bambino, Baseball Hall Of Fame。 词组也可以有双引号引起来,另一种方法是使 用连字符,如wonderful-life。

要求/排除操作符:同AltaVista一样,使用+号和-号。 用法也相同。

接近操作符: 把单词放在方括号里, 要求它们的距离在 100 个单词之内,如[immune disease]。

七、Yahoo!(http://www.yahoo.com)

Yahoo!不是搜索引擎,而是严格的层次组织的主题索引。 它已经开发了很长时间,有很多编辑人员来维护,所以质 量非常高。当不知该去哪里的时候,在Yahoo!上浏览是找 到好站点的最好方法。它也是找到好的“初学者”站点的 最好方法,从那里可以连到更专门的站点上。

Yahoo!的使用很简单。只要输入查找单词,单击按钮 即可。它将返回三种信息:

1)满足查询条件的Yahoo的目录(用户可以利用它们进行 交叉引用); 2)满足条件的实际站点; 3)更广泛的含有页面索引的Yahoo! 目录--这是一种更 广泛的交叉引用。

虽然不能进行很高级的搜索,但用户可以控制:

1. 搜索的范围: Yahoo(缺省) , Usenet或Email Address;

2.搜索词之间的关系:OR还是AND(缺省);

3.是进行子串搜索(如输入head,可以查headlines ) 还是进行完整的单词搜索 (如输入headlines 才搜索 headlines) ,缺省是子串搜索;控制每页显示的结果数 目:10,25(缺省),50或100。

八、NlightN(http://www.nlightn.com)

NlightN是一种经典的信息/文档交付服务。可以免费地使 用它的通用索引,在订购文档的时候才支付费用。它的索 引除了网页外,还包含参考著作、新闻电信、书籍、论文 和很多公共和专用的数据库。这是一个盈利的组织。虽然 可以得到一个免费的帐号,但查找的能力很有限。如果要 想付费使用的话,可以从它的帮助文档里得到FAQ。

它的搜索查看很简单,只要输入词,单击FIND按钮,就会 进入一个中间窗口,显示查到的结果有以下几种类型:

1.信息数据库;

2.当前的新闻简介;

3.新闻档案;

4.WWW互联网索引;

5.桌面参考;

6.折价的书店。

选择了WWW之后, 会发现它的索引不如其它的完整, 但也能找到一些有用的信息。

布尔查找:缺省的操作符是AND。建立布尔表达式的时候, 可以用符号&代表AND, |代表OR,^代表NOT,如 (Army & Navy)^(Air Force)。可以用括号把单词组成词组。

如果得到了一个正式的帐号,搜索窗口就不一样了。可以 在域内进行选择(就象图书馆目录中的作者/书名/主题域) ,还可以控制搜索的数据库的范围。通过LIMIT/FILTER和 SEARCH LOG选项还能聚焦搜索的范围和访问以前的搜索结 果。

九、The Internet Sleuth(http://www.isleuth.com

这是一个很有用的工具,不过并不是那么完整。它同前面 的工具有些不同。它对大量的数据库做了索引,提供了一 个前端的工具。因此,在搜索框内输入尽可能广义的一个 单词,然后在结果搜索窗口中选择最合适的。例如,想要 查找Sonny Bono的经典歌曲“I Got Your Babe” ,首先 搜索“music",结果将是29个可搜索的数据库,如CD-Rom 数据库、音乐学院、芝加哥音乐会、Smithsonian民谣等。 其中有一个叫歌词服务器,从中可以得到想要的歌词。

它允许布尔搜索和通配符搜索,还有关于搜索的提示。它 甚至能查到Yahoo的索引。

十、Magellan(http://www.magellan.com)

Magellan实际上不是一个搜索引擎, 而是一个在线的 Internet指南,包含了被分级和评价过的站点的目录,也 有很多没评价过的站点的索引。它有点象Yahoo!,虽然不 太完整,但它的分级系统却很全(从一星到四星)。它的 优点在于它的评价系统。 它的重点是流行站点(UFO是它 的前页的主要目录之一)。唯一的缺点是那些不可避免的 广告。




月光软件源码下载编程文档电脑教程网站优化网址导航网络文学游戏天地生活休闲写作范文安妮宝贝站内搜索
电脑技术编程开发网络专区谈天说地情感世界游戏元素分类游戏热门游戏体育运动手机专区业余爱好影视沙龙
音乐天地数码广场教育园地科学大观古今纵横谈股论金人文艺术医学保健动漫图酷二手专区地方风情各行各业

月光软件站·版权所有