80%的成功正在显现。
--伍迪·艾伦
托勒密在创建他的图书馆时遇到了前所未有的问题。最大的问题在于,从未有人尝试过对如此浩瀚的藏书进行批量分类,以便人们找到想看的书。在随意堆放书架的50万卷书中,要想找到你想看的书是很困难的。以任何其他名字命名的《理想国》(Republic),都与柏拉图的作品有差异。
伟大的亚历山大图书馆馆长们正是从这里入手,开展他们的工作的。亚历山大图书馆的首任馆长是位男性,叫泽诺多托斯(Zenodotus),他想出了人类梦寐以求的最为持久的分类系统,按字母顺序给亚历山大的书卷排序。简而言之,这是一个我们现在认为理所当然的简单概念,然而在希腊人研究出他们的字母表500年后,亚历山大图书馆才使之成为必然。随着图书馆的发展壮大,即使使用这一系统也颇感吃力。诗人、学者卡利马科斯(Callimachus)据说是第二或第三任馆长,他建立了首份文献目录。在一份名为《各科著名学者及其著作目录》(Pinakes ton en pase paideia dialampsanton kai hon synegrapsan)的文件中,他将各种文献分为几大类--修辞、法律、史诗、悲剧、喜剧、诗歌、历史、医学、数学、自然科学和杂集。据说,目录本身就长达120卷,它可能从未完成,也未能流传至今。但对后世而言,它是学者开展研究的主要源头,在此后的1000年间,它逐渐演变成了书目的形式。
各种创新不断涌现。诗人菲洛塔斯(Philotas)在图书馆编写了首部综合大辞典,泽诺多托斯进一步对它进行了字母排序。迪代默斯(Didymus)为各类著作写评论、编词汇表。狄奥尼修斯·特拉克斯(Dionysius Thrax)创作了第一本语法书,该书在1000年间成为希腊语法的标准文本,对罗马人的拉丁文语法的形成产生了深远影响。2000年前在亚历山大构想的各种学说沿用至今。
在斯坦福大学求学初期,拉里和谢尔盖并未打算将其搜索引擎作为要开创的任何公司的核心业务。他们将搜索引擎看做一个学术研究项目,是一种可以在互联网浩瀚文库中找到最合适文献的技术。
1997年,他们还是斯坦福大学计算机科学博士学位的在读研究生,那时他们在讨论自己的发明时表现出了极大的热情。他们喜欢的聊天对象是安德烈·布罗德(Andrei Broder),他在一家名为系统研究中心的硅谷公司担任公司研究员,他所带领的团队建立了当时最热门的搜索引擎AltaVista。布罗德是斯坦福大学校友,他过去经常来校园转转,看看有什么有趣的项目可开展。他偶尔会和聪明的研究生们喝咖啡聊天,其中有两个就是拉里和谢尔盖。
布罗德发现他们“显然很聪明,并试图革新这一世界”。但???讨论转到从这一技术中牟利的话题时,布罗德发现他与拉里·佩奇存在重大的认识分歧。“拉里很可笑,”布罗德回忆说,“他坚持认为搜索引擎不应由商业实体拥有。他说这项工作应由一家非营利机构开展。我猜现在拉里已经改变了这种想法。”
布赖恩·兰特同意这个观点。他曾与拉里和谢尔盖共同参与搜索引擎项目的研究,一段时间后他决定离开并参与创建了另一家公司(他现在是梅迪奥系统公司(Medio Systems Inc.)的首席执行官,该公司向移动电话制造商出售搜索和广告系统。)兰特回忆说,谷歌搜索引擎当时的问题在于拉里和谢尔盖不想将其商业化,而兰特则急于成为企业家。他们当时的口号更具有社会主义色彩,而不是创业精神。“‘不作恶’的本意是‘不去商业化’。”兰特说。
比起谢尔盖,拉里更坚持这种观点。在斯坦福时,谢尔盖就其发明写了一篇学术论文,题目是“对一个大规模超文本网络搜索引擎的剖析”。在这篇论文中,他还驳斥了支持广告服务的恶劣影响。“广告资助的搜索引擎自然会偏向广告商,并远离消费者的需求。”他写道。
但与很多报道相反的是,这两个人并不反对开公司。所有申请就读斯坦福大学--硅谷缔造者--的研究生们都敏锐地意识到,这里是开公司的好地方,拉里和谢尔盖只是不希望谷歌解其企业家梦想的一时之渴。他们认为,搜索引擎太重要了,它不能被经济利益毁掉。
克雷格·西尔弗斯坦(Craig Silverstein)也是斯坦福大学的博士研究生,他作为第一名员工参与了公司的创建。他是那种不愿意真的创办公司的人。但他回忆说,拉里和谢尔盖真心想开公司。“拉里一直想成为一个企业家,”西尔弗斯坦说,“他总是对公司的未来寄予厚望。谢尔盖是这方面的好伙伴,他也这么想。”西尔弗斯坦最终搁置了他的学术生涯加入谷歌,目前仍然在此工作。
搜索隐藏的意思
拉里几乎是偶然地撞入了创建搜索引擎之路,推动他的是两股不同的力量--一个政府资助的研究项目和互联网的兴盛。他们的工作受到了一个名为“数字图书馆倡议”的研究项目的资助,该项目的启动是国防部的一个尝试,旨在以电子手段更容易地搜索到计算机研究论文。
“数字图书馆倡议”原本与互联网无关,它在1994年还没有成为数字世界的重要力量。斯坦福政府原来的拨款提案甚至没有提及互联网。
但在1994年,网景通信公司推出了具有图形界面的Web浏览器。接下来的一年里,整个世界突然有了一个存储和共享一切信息的系统,这使得“数字图书馆倡议”成为昨日黄花。也是在这一年,雅虎公司成立。“互联网完全改变了我们脚下的一切。”时任斯坦福大学计算机科学系主任的埃克托尔·加西亚-莫利纳教授说。
每当一种新技术出现时,很少有人真正懂得怎样去恰当运用。通常只有第二代公司才能取得实质性进展。对于搜索引擎而言,这确是事实。在整个20世纪90年代,搜索引擎先是根据某站点的特定关键词的发现次数来检索网页。这些引擎并未利用互联网的互联特性,只是寻找站点、存储信息。互联网所要求的新技术尚不存在。是拉里缔造了它。
当谷歌的搜索引擎在1998年12月正式推出时,它在一个杰出特质方面卓尔不群:它确实管用。
它的核心是PageRank系统,这是由拉里(并以其名字命名)在攻读博士期间发明的。它利用了网络的独特优势--与其名称如此贴切的互联网络。
加西亚-莫利纳回忆了公司起步阶段的点点滴滴。他是佩奇的顾问,1995年的一天,他的学生走进办公室,给他看所发现的巧妙把戏。AltaVista搜索引擎不仅从各个站点收集关键词,还能显示出与其链接的其他网站。AltaVist并没有以谷歌的方式利用这一链接信息,但那天在加西亚-莫利纳的办公室里,佩奇暗示这是一个排名网站重要程度的好办法。
起先,这只是一个游戏。“我们那天很开心,一直在看哪些计算机科学网页在各个大学中最受欢迎。”加西亚-莫利纳回忆道。他们高兴地发现,像斯坦福大学的数据库小组就比对手威斯康星大学的类似部门吸引了更多链接。
拉里对于链接有自己的看法。他告诉加西亚-莫利纳:“既然它对我们如此重要,为什么不把它作为搜索程序的一部分?”
拉里的想法是受其科学背景的启发。众所周知,在科学界,当研究人员在自己的论文中引用你的论文时,就会提高你的论文的可信度。你被引用的次数越多,你的论文就越被科学界关注。这个想法体现在尤金·加菲尔德(Eugene Garfield)1960年创建的科学引文索引数据库上,尤金是科学情报研究所的创始人。拉里推断,网络链接与科学引文相似,链接最多的引文,可能就是最受研究人员欢迎的引文,并将被证明最为有用。这些站点应该在搜索结果中首先列出。然后他开始开发自己的软件,用于分析站点之间的链接。
这需要一些棘手的程序。该系统不仅需要计算某个特定站点的链接次数,还要进一步确定所链接网站的重要性。这要通过计算对反向链接网站的链接数来实现,从而大大增加了分析的复杂性。为了计算相关性,PageRank还必须反向追踪两步链接,并将数据与关键词关联。鉴于该系统反向追踪链接的特性,拉里最初称其为BackRub,但他后来将其命名为更复杂的PageRank,这是他姓氏的双关语。
也是出于偶然,谢尔盖开始了搜索引擎的研究。在斯坦福大学主修数学和计算机科学博士课程时,他在数据库小组里致力于一个研究项目。1995年,他和布赖恩·兰特试图研究另一种被称为“关联数据挖掘”(associative data mining)的计算机科学方法。这个过程是用来寻找往往同时发生的信息片段。零售商用它来查询其销售记录,并确定客户是否经常一并购买其他物品。不过,数据挖掘是计算机科学的一个新领域。它需要存储大量的网络数据,所以谢尔盖不得不写了一个“爬虫”(Crawler)程序--用来访问网站、总结其内容并在研究生和搜索公司可以访问的中心位置存储数据的软件。其他搜索引擎已经有了自己的爬虫程序。
谢尔盖是一个了不起的程序员和工程师。他的互联网数据挖掘工作涉及对海量数据的解析。“他的大手笔其他人根本不会去考虑。”谢尔盖的顾问杰弗里·乌尔曼(Jeffrey Ullman)说。(谢尔盖关于谷歌搜索引擎概况的论文,被他自己在另一篇科学论文《服务质量和电子报纸:Etel解决方案》中引用。)