4. 使用Web搜索引擎,开展研究
一个互联网搜索引擎可以让用户输入同论题相关的关键字,查到包含相关信息的网站。有多种支持各种互联网协议的搜索引擎。例如,Archie用于搜索存储在匿名FTP网站中的文件。
目前,Web本身已经成为互联网环境的首选,位于Web中的搜索引擎越来越受到欢迎。Web搜索引擎能够提供位于互联网中的大量网站的信息。不少搜索引擎汇集了多种互联网协议的数据库,包括HTTP, FTP和Usenet。它们也能够在Web中深入搜索到多媒体或者其他类型的文件,且可进行单项搜索。虽然Web搜索引擎主要由私营公司开发,但其中的大多数是免费的。
一个Web搜索引擎包含三个部分:
爬虫:能够从一个链接到另外一个链接,遍历网络,且识别和阅读网页的程序。
索引:包含由爬虫搜集的网页的副本的数据库
搜索引擎机制: 可以让用户查询索引的软件,通常根据相关度返回结果。
注意爬虫程序是不加选择地进行遍历的,要知道一些搜集到的资源可能是过时的,不准确或者不完整的。剔除这些不准确的资源,其他的查到的资源当然是有根有据的和有价值的。需要仔细评估所有的搜索结果。
大多数搜索引擎使用时,是在搜索项中填写表格,之后请求搜索。该搜索引擎查询其索引,之后生成一个包含你的搜索项的部分或者全部内容的链接资源的页面。这些资源列表的排列通常是有次序的,对于搜索内容的打分比较曾经是个流行的方法,如果你的搜索项在一个文档中(包括在文档的标题中,在文档的开始,在文档的结束位置等)出现的次数越多,那么该文档在就在搜索结果列表中就越处于开始的地位。 这类引擎被认为是第一代搜索引擎。
在搜索引擎技术中更为复杂的一项技术是根据概念,关键字,网址,链接或者流行度来对搜索结果排序。支持这些功能的搜索引擎被认为是第二代搜索引擎。这些搜索引擎对排序结果进行了改进。这是因为在决定相关度的时候,需要加上人为因素。例如,Google根据链接到其他页面的网页的排序得分对搜索结果进行排序。 如果有其他得分高的页面链接到该页面,那么该页面的得分就高。这个策略结合了技术和人为的判断。
所有的搜索引擎都有查寻规则。在开始搜索之前,你需要阅读帮助文件,在线教程也可以帮助你学会这些规则。本文的最后列出了一些推荐教程。
建议:
从Google开始。这是个著名的第二代搜索引擎,其页面的排序是基于热门网页链接到的数量来决定的。包含这些链接的网页越热门,该页面的排列位置越靠前。这些热门网页的排列位置同样也是这样确定的。 这里用到的思想是:高质量的网页可以通过另外一个高质量的网页的链接找到。Google在市场上大获成功,这就是该排序理念的见证。
另外一个有趣的链接排序引擎是Teoma。该搜索工具把搜索结果组成为三个部分:按照得分高低排序的网页列表,专家给出的相关网站的链接, 以及基于论题关键字的概念分类。这些分类是动态生成的,可以细化你的搜索结果。排序同Google有些不同,Teoma在搜索论题时,在同一类别中来对网页排序。 它们被称为“特定主题的流行度”。
如果你的论题不太明确,或者你打算一次用一个搜索语句获得多个搜索引擎的结果,那么Ixquick 是个好去处。该服务同时使用多个搜索工具,并返回剔除了重复页面的搜索结果。这种搜索处理称为元搜索。值得一提的是:Ixquick在源搜索服务中,仅仅返回最靠前的10个相关结果。这就意味着你一次可以使用多个搜索引擎来查询。其他推荐的元搜索引擎包括 Vivisimo和ProFusion。