5. 探索“深度Web”
“深度”或者“不可见”Web的概念近来开始浮现,这是指存储在Web数据库中的,但搜索引擎访问不到的内容。换句话说,对于搜索引擎来说是“不可见”的。不同于检索静态页面,爬虫程序无法进入到数据库中检索内容,以往,这些数据库数量少,被称为专门数据库,主题数据库等。
在不可见Web中访问信息的最好方法是搜索这些数据库,这些数据库包罗万象,从学术资源到商业信息。近来,动态生成的信息很可能是存储在数据库中,包括新闻,求职信息,飞机航班信息等等。随着通过Web访问的数据库数量的增加,通过数据库来在Web上寻找信息将成为主流。
其他未被爬虫搜集的内容包括非文本文件,诸如多媒体文件,图像文件,以及象PDF这样的非标准格式文件。Google对此是个例外,它可以检索到PDF, Word和其他文档。
注意:不少搜索引擎网站以及商业门户网站把能够搜索深度Web作为其服务项目之一,这种内容汇集是大势所趋。例如,你可以访问AltaVista,查找新闻,地图,职位信息,拍卖,购物信息等等,所有这些都处于爬虫程序搜索的范围之外,另外一个例子,Google把 PDF和Microsoft Office文件的检索功能集成到其通用搜索服务中。
此处列举了一些能够搜索深度Web的网站:
The Invisible Web
http://www.profusion.com/
拥有超过10,000个数据库的目录,可以搜索你所需要的数据库
Invisible-web.net
http://www.invisible-web.net/
尤其适合于研究人员,拥有高质量的数据库
Search.Com
http://www.search.com/
来自CNET的数十个基于论题的数据库