副刊

谷歌的故事

1996年的初春,拉里佩奇 (Larry Page),一名史丹福大学电脑系的研究生,在自己的网页上释放了一只网络爬虫(Web Crawler),在不知不觉中开启了另一轮网络革命。1996年已是互联网元年的五、六年后,在光速运行的互联网世界,这几乎相当于永恒。

这时,纳斯达克股票市场上已有几间体积巨大的互联网搜索公司,如 Alta Vista、Excite和 Lycos  等等。它们资金充裕,摩拳擦掌准备征服世界,拉里佩奇只不过是一个微不足道的研究生。



论文引用率作指标

起初,拉里佩奇也没想要建立搜索引擎,他的研究课题是引用文献分析(Citation Analysis)。这是哪一门子学问?

举一个简单的例子:世上研究冠状病毒的科学家数以万计,发表的论文更是汗牛充栋,要如何判断哪几篇论文值得参考,哪些可以略过不究?学术界公认的指标是论文引用率:一篇被奉为翘楚的论文报告,是其他学者深入研究的基础,引用率高;反之,一篇平凡的论文,搁在图书馆深处收集灰尘,很少被引用。你想研究冠状病毒,从引用率最高的论文着手,虽不中亦不远矣。 

这个原理被拉里佩奇用到了网络搜寻上。假设你在网上输入一个搜索词 Apple,搜索引擎必须从海量的资讯中,找到对你最有价值的网页。首先,该网页必须含有 Apple 这个词。然而,符合这个条件的网页动辄上百万,要如何按照优劣排列搜索结果(rank)?最粗浅的推断,是以搜索词在文件中出现的频率为准:搜索词出现的次数越多,越可能包含与其相关的有用资讯。当然,这不一定对,也可轻易被滥用,可能找出垃圾网页,塞满连串毫无意义的关键字。另外,又如何得知你搜索的是那红彤彤的水果还是苹果手机?当时的几家上市公司和顶尖学府,都投入巨大的资源来研究这个课题。

高质网页 多人引用 



拉里佩奇假设:网页的引用率是其内容质量的重要指标。高质的网页,很多人引用,反之则不然。在互联网上,引用率的测量方法是这个网页的被链率(注:被其他网页链接进来,或inbound links;不是链接到其他网页上,或outbound links)。如果被链率一样呢?就看链接源件的质量。

打个比方:美女要在阿甲和阿乙之间,选择品格最好的一人嫁过去,两人各有一人作保,保阿甲的是圣人,保阿乙的是强盗,美女选阿甲就比较稳当。 

以此推断,一个网页的内容质量,取决于其他链接到此的网页数量和质量。如果有很多网页链接到这里来(引用数量),而这很多的网页本身都是高质量的(引用质量),那么,这个网页便是高质量的,应该被搜索引擎排列在前。

这个崭新的想法,成为佩奇排名算法(PageRank)的基础。实践证明,它给网民带来最好的体验,能搜索出最合心水的网页。谷歌一面世,网民口耳相传,纷纷涌来。谷歌后来居上,把其他上市公司杀得横尸遍野。二十多年后,谷歌已是世界最大的公司之一,在中俄以外占据全球搜索市场份额的八成以上,当年那几家上市公司,早已淡出众人视野。

这个故事听起来好像一则神话,却是科技改变世界的真实案例:一个默默无闻的研究生,无中生有,横空出世,杀死几只网络巨兽。

反应

 

国际

TikTok美国下架快了? 美议员要求谷歌苹果作准备

(华盛顿15日讯)美国跨党派国会议员致函谷歌与苹果公司,敦促对方要做好将短影音平台TikTok应用程式下架的准备。

外媒报道,美国联邦众议院中国事务特别委员会主席、共和党籍众议员穆勒纳尔(John Moolenaar)和委员会内最资深的民主党籍众议员克里斯纳莫托西(Raja Krishnamoorthi)在信中称,为了确保美国国家安全及保障美国民众免被中国共产党渗透,敦促TikTok必须立即脱离中资控制,谷歌与苹果须为执行在明年1月19日起生效、从美国应用程式商店移除TikTok的法令作好准备。

美国联邦上诉法院上周维持一项去年由国会通过的法令,该法令要求中资控股股东字节跳动在下月19日前出售TikTok,否则TikTok将被禁止在美国营运。

新闻来源:中时新闻网

反应
 
 

相关新闻

南洋地产