关于大型超文本网络搜索引擎的剖析

谢尔盖·布林、劳伦斯·佩奇（注：两位都是谷歌创始人。）
斯坦福大学计算机学院

概要

在这篇论文，我们提出了作为大型搜索引擎原型的谷歌，它充分利用了超文本中的结构。我们设计谷歌的初衷是为了更有效地爬取、索引网站，获取到和现存的其他系统相比更令人满意的搜索结果。这个原型有着至少2400万个网页的文本超链接数据库，我们可以通过google.stanford.edu/访问到它。
设计制造搜索引擎是一个具有挑战性的任务。搜索引擎要将成千上万个含有相当数量不同词汇的网页编入索引。它们每天要回答数千万的询问。尽管搜索引擎在网络中很重要，也很少有学术研究涉及这方面。此外，随着技术飞快发展、网络不断增殖，如今创建一个网络搜索引擎，和三年前相比就已经截然不同。这篇论文提供了关于我们这个大型网络搜索引擎的深入说明——这是据我们所知的第一次有如此详尽公开的说明。
除了将传统搜索技术放大到这个数量级的问题以外，在如何用超文本中的附加信息获取到更好的搜索结果方面，还存在一些新的技术挑战。这篇论文就如何建立一个可以解析利用超文本中的附加信息的实际的大型系统这个问题进行了探讨。同时，也探讨了如何有效地处理那些未被管控的超文本集合的问题，在这些超文本集合里，任何人都可以发布他们想发布的东西。
关键词：万维网，搜索引擎，信息检索，网页排名，谷歌。

1. 介绍

网络给信息检索带来了新的挑战。网络中的信息数量在飞速增长的同时，没有网络检索经验的新用户数量也在增长。

[translation] 关于大型超文本网络搜索引擎的剖析

关于大型超文本网络搜索引擎的剖析

概要

1. 介绍