科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 3451 次
  • 编辑次数: 2 次 历史版本
  • 更新时间: 2010-02-26
高兴
高兴
发短消息
高兴
高兴
发短消息
相关词条
谷歌成全球市值最高企业
谷歌成全球市值最高企业
谷歌市值突破5000亿美元
谷歌市值突破5000亿美元
谷歌重组
谷歌重组
桑达尔·皮查伊
桑达尔·皮查伊
谷歌管理层重组
谷歌管理层重组
谷歌创始人年度公开信
谷歌创始人年度公开信
谷歌Project Ara项目
谷歌Project Ara项目
Google X
Google X
布林隐秘情史
布林隐秘情史
谷歌Oppia
谷歌Oppia
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

目录

连线杂志:谷歌算法统治互联网的秘诀编辑本段回目录

科技时代_连线杂志:谷歌算法统治互联网的秘诀

谷歌如何搜索浩如烟海的信息?

  导语:美国《连线》杂志网站日前发表编辑史蒂文·列维(Steven Levy)的文章,揭开了谷歌搜索算法的神秘面纱。

  以下是文章全文:

  搜索改变生活

  想知道谷歌将如何改变你的生活吗?那么周四去“瓦加杜古”会议室看一看吧。在加利福尼亚山景城的这个会议室里,几十名工程师、产品经理和高管聚集一堂,讨论如何令谷歌的搜索引擎更加智能。今年,谷歌将对其传说中的搜索引擎算法进行了大约500项改进,而且每一项改进都要通过这样的会议决定。

  每周一次的“搜索质量大会”,都将可能影响谷歌搜索的结果——“三星SF-755p打印机”、“MySpace布局代码”,甚至是“布基纳法索 首都”,该国首都恰巧与谷歌此会议室名字相同。自2006年以来,一直担任谷歌搜索主管的乌迪·曼博(Udi Manber)任会议的负责人。会议将一一提出可实施的改进,同时还会讨论数月来在不同国家、不同语言环境中的测试结果。屏幕上分两列显示,更改前后同一查询返回的结果。在讨论“吉他 人声模拟”的查询结果时,曼博叫道:“这个我搜过”。

  你可能会想,谷歌已经主导搜索引擎市场长达十年之久,应该可以高枕无忧了。毕竟谷歌在搜索引擎市场上的份额高达65%,甚至谷歌一词已经成为搜索的代名词。就像谷歌不愿在桂冠面前止步一样,其竞争对手也不愿轻易认输。多年来,谷歌一直在用其神秘、看起来无所不知的算法来“组织世界信息”。但最近五年来,很多公司开始对谷歌的一重要观点发起挑战。

  谷歌认为,一个单一的搜索引擎,通过技术创新和不断改进,可以满足任何搜索要求。而Facebook较早对此发起了挑战,认为一些人更愿意通过朋友获得信息,而不是一个没有名字的算法公式。Twitter能对不断更新的消息进行时时分析,这就使“实时搜索”成为现实——挖掘正在进行的讨论或闲谈。

  购物比较网站Yelp通过大众对商家的等级评定,帮助人们寻找饭店、干洗店和保姆等相关信息。虽然这些后起之秀无法单独对谷歌造成威胁,但它们共同预示着搜索行业的一种开放、混沌的未来——并不是被一个搜索引擎所主导,而是包含着丰富多样的服务。

  来自必应的挑战

  然而,谷歌最大的威胁是微软的必应(Bing)。必应使人联想到探索、美国传奇歌手Bing Crosby、和《黑道家族》中的Bada Bing夜店,这款重新修整、被赋予新品牌的搜索引擎在去年6月推出时便赢得了乐观的评价。《华尔街日报》称其“比谷歌更有吸引力”。新的面貌和1亿美元的广告战使微软在美国搜索市场中的份额从8%跃升至11%——如果监管部门批准必应成为雅虎的搜索服务商,这一份额将增加一倍以上。

  必应团队一直专注于谷歌算法无法满足的需求。比如,谷歌擅长搜索公共网络,但却无法实时跟踪不断变化的航班时刻表和机票价格。因此微软收购了Farecast网站,该网站追踪机票价格的变化,并据以预测票价的涨跌。目前,微软已把Farecast的技术应用加入到必应的搜索结果之中。微软在其认为谷歌算法没有优势的领域,例如健康、购物领域,也进行了类似的收购。

  即使必应团队承认,在根据搜索词返回有用信息方面,谷歌还遥遥领先。但他们仍认为,如果必应可以提供一些擅长的领域,用户会逐渐习惯使用必应来进行特定的搜索。微软核心搜索部门副总裁布莱恩·麦克唐纳(Brian MacDonald)表示:“算法对于搜索引擎来说至关重要,但它并不是一切,就像你买车并非只因为它的引擎。”

  谷歌仍是最“智能”的搜索引擎

  一个有趣的例子“mike siwek lawyer mi”表明了谷歌相对于必应的优势。

  阿米特·辛格(Amit Singhal)是谷歌的首席工程师,40多岁,性格温和,他曾因在2001年重写了谷歌搜索引擎而获得殊荣。他将这些单词输入谷歌搜索框,并敲击了回车键。在极短的时间内,搜索结果便显示出来。最上面的链接指向的网页给出了密歇根州大急流城一位名叫Michael Siwek的律师。

  这是一个很普通的搜索,谷歌每天要处理成千上万的这种搜索。但事实上这一搜索过程十分复杂,可能使一些搜索引擎误解。如果把这些单词输入到必应,第一个结果是美国国家橄榄球联盟的历年球员名单,其中有一个名叫Lawyer Milloy。搜索结果中的下面几页,也没有与律师Siwek相关的内容。

  这一对比显示出谷歌算法的强大,甚至可以说是智能,而这是通过反复的修正实现的。看起来谷歌拥有解读用户需求的神奇力量——不论是多么生僻的搜索,或是有拼写错误。谷歌将这种能力称为搜索质量,并且多年来一直竭力完善算法,以产生精确的搜索结果。

  现在我就与辛格一起坐在谷歌的43号办公大楼里,因为谷歌给与了我一个前所未有的机会——让我了解他们是如何保证搜索质量的。背后的意涵很明确:你可能认为算法只是一个引擎,但在揭开其神秘面纱之后你才会发现它是多么的无所不能。

  创新的开始:PageRank

  谷歌算法始于PageRank,这是1997年拉里·佩奇(Larry Page)在斯坦福大学读研究生时开发的。佩奇的创新性想法是:基于入链接的数量和重要性对网页进行评级,也就是通过网络的集体智慧确定哪些网站最有用。随着谷歌迅速成为互联网上最成功的搜索引擎,佩奇和谷歌的另一名创始人塞吉·布林(Sergey Brin)将PageRank这一简单概念看做谷歌的最根本创新。

  但这并不是故事的全部。曼博表示:“人们信赖PageRank是因为它是可以进行确认的,但要提供最有用的结果还需要其他技术。”这涉及对某些信号、上下文的利用,这样对于任何查询,搜索引擎都能将最有用的结果排在最前面。

  网络搜索是一个多方过程。首先,谷歌机器人获取每个可访问网站的内容。这些数据将被分解成一个索引(通过文字进行组织,就像书本的目录),这样就可以根据内容找到任何页面。每当用户键入一个查询,谷歌就会在索引中搜寻相关页面,然后返回一个包含多达数百万页面的列表。最复杂的是对列表进行排序,也就是决定哪些页面应该出现在最上面。

  此时,上下文便有了用武之地。所有搜索引擎都会引入上下文,但没有一个像谷歌那样引入得那样多、应用那样自如。PageRank本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性,其中的一些信号在现在看来是显而易见的。

  一直以来,谷歌算法都对页面的标题给与特别的关注,因此标题成为确定相关性的重要信号。另一个重要技术是锚文本,指的是超链接中的可见文本。因此,“当你进行搜索时,搜索引擎总能给出正确的页面,即使该页面中没有你找的关键词。”这是谷歌早期架构师斯科特·哈桑(Scott Hassa)的观点,他曾与佩奇和布林一起在斯坦福工作。之后,搜索引擎关注的信号还包括新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)等。谷歌目前使用200多种信号来帮助确定搜索结果的排序。

  谷歌工程师发现,一些最重要的信号可能来自谷歌本身。PageRank将受欢迎程度植入了搜索引擎:成千上万的网站民主地决定将链接指向哪些网站。但辛格表示,谷歌工程师还利用了另一种民主——成千上万使用谷歌搜索的用户。用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。这一过程的最直接例子就是谷歌所说的“个性化搜索”——这是一个可选功能,利用用户的搜索历史和地理位置来确定他想要找的内容(使用这项功能需要先登录谷歌账号)。更通常的方法是,谷歌利用其收集的大量数据支持其算法,谷歌对此有极深的理解,可以解读隐秘查询的复杂意图。

 “热狗”与“煮狗”

  以谷歌确定同义词的方法为例。辛格表示:“我们很早就有了一个有趣的发现,那就是用户会更改查询的关键词。比如有人会搜索‘dog’,然后改成‘puppy’,因此搜索引擎就会得知‘dog’和‘puppy’可能是可以互换的。引擎也会知道,当你烧(boil)水时,水会变热(hot)。我们从人类的语义中学习,这是一个很大的进步。”

  但这也有障碍。谷歌的同义词系统知道“dog”和“puppy”类似,沸(boiling)水是热的(hot)。但它同时会认为“hot dog”(香肠夹心面包)和“boiling puppy”(煮狗)是一样的。通过路德维希·维特根斯坦(Ludwig Wittgenstein)的理论,该问题于2002年得以解决。该理论涉及上下文如何决定词语的意思。当谷歌抓取并存储数以亿计的文件和网页时,它会分析哪些词是彼此邻近的。包含“hot dog”的页面通常也包含“面包”、“芥末”、和“棒球”,而不会包括对杂种狗的猎杀内容。这就帮助了搜索引擎理解“hot dog”和其他成千上万个词语的意思。辛格说:“现在,搜索引擎会知道bio在‘Gandhi bio’中是‘biography’(传记)的缩写,而在‘bio warfare’中是‘biological’(生物)的缩写。”

  在谷歌的发展过程中,该公司不断设法增加新的排序信号,并且兼顾不会影响用户的核心体验。每几年就会对系统做一次重大修改(有点像Windows的新版本),这在山景城是人尽皆知的,但其他人不会关注。

  辛格说:“我们的任务是对这架以每小时1000公里在三万英尺高空飞行的飞机的系统进行根本性更改。”2001年,为了应对互联网的飞速发展,辛格事实上完全改写了佩奇和布林的算法,以便使谷歌可以快速增加新的信号(新信号之一可以区分商业页面和非商业页面,从而为购物者提供更好的结果),也是在这一年,一位名叫克利什纳·伯哈拉特(Krishna Bharat)的工程师认为权威网站上的链接应该具有更大的权值,因此设计了一个强大的信号以便赋予这些链接更大的可信度(这是谷歌的第一个专利),最新的一项修改的代号为“咖啡因”,对整个系统进行了修改,从而使得工程师可以更容易地增加新的信号。

  谷歌识别语义的过程

  谷歌以善于鼓励这些创新而闻名,每年公司都会举办“疯狂搜索创意”内部展示活动,以便鼓励那些离奇但有应用潜力的创新。但大多数时候,改进的过程是充满艰辛的,需要矢志不渝的精神,需要面对尝试过程中的打击。有一个不成功的搜索已经成为传奇:2001年,辛格得知输入“audrey fino”时无法搜到预期内容,而只是返回一些赞扬奥黛丽·赫本(Audrey Hepburn)的印度网页,因为在印度语中“fino”是好的意思。辛格说:“我们知道audrey fino是个人名,但我们的系统没这么聪明。”

  这一失败使辛格花了多年时间,试图改进谷歌对姓名的搜索结果——因为姓名占总搜索量高达8%。为了解决这一问题,他不得不掌握“bi-gram拆分”,也就是将多个词分割成独立的单元。比如,“new york”合在一起组成一个bi-gram,指的是纽约。但也有三个字的情况,比如“new york times”,意思是纽约时报,很明显二者指的不是同一样东西。如果用户输入的是“new york times square”,意思又变成了纽约时代广场。人类可以很容易做出区分,而谷歌不是由人工控制的,它依靠的是算法。

  “Mike Siwek”这一搜索可以解释谷歌是如何解决这一问题的。辛格输入显示代码的命令后,我们就可以看到信号是如何决定搜索结果排序的:通过bi-gram可以确定mike siwek是一个人名,lawyer是一个同义词,mi是一个地名。辛格说:“从工程师的角度进行解构,系统会对这些词进行分割,它会发现lawyer不是姓氏,siwek不是中间名。同时lawyer也不是密歇根的一个镇,因此它是attorney的同义词。”

  这是谷歌从无数次搜索中获得的可贵知识。石头可以是“rock”,可以是“stone”,还可以是“boulder”(漂石)。如果用户输入“rokc”,谷歌仍会知道他想找的是“rock”。但如果在“rokc”前加“little”,谷歌则会知道这是“Arkansas”(阿肯色州)的首府。“Arkansas”的缩写是“ark”,与诺亚方舟同形,但谷歌会将二者区分开来。辛格说:“搜索中最重要的是理解用户的意图,因此你不是在匹配词语,而是在匹配意思。”

  谷歌一直在不断改进。近期,谷歌工程师莫琳·海曼斯(Maureen Heymans)发现了“Cindy Louise Greenslade”的搜索结果的问题。用户输入这些单词时,算法会认为应该找一个名叫Cindy Louise的人,于是在加利福尼亚的加登格罗夫市找到了一名心理学家,却没有把姓名为“Cindy Louise Greenslade”的人的网页放在结果的前十名。海曼斯发现,这是因为“Cindy Louise Greenslade”习惯将名字缩写成“Cindy L. Greenslade”。她表示:“我们的搜索引擎应该更聪明一点。”于是她增加了一个信号,用来寻找中间名的缩写。现在正确的结果已经被排在了第五位。

  层出不穷的创新

  在任何时候,谷歌高效运转的测试系统都会进行几十个这种改进。谷歌在全世界专门雇佣了上百人,这些人坐在家里的电脑前判断更改后的结果是更好还是更差。但谷歌还有一个更大的测试团队,这就是成千上万的谷歌用户,他们不知不觉地加入了这项长期的质量实验。

  每当工程师想测试一项技术调整时,他们会在一小批随机用户中运行这些算法,而绝大多数的用户扮演的是参照组的角色。需要测试的更改太多,因此谷歌放弃了一次只测试一项技术调整的策略。搜索质量工程师帕特里克·赖利(Patrick Riley)表示:“在大多数搜索过程中,你同时都处于多个‘实验组’和‘参照组’之中。”但他随后又做出了更正:“事实上,所有搜索都被卷入了实验之中,因此用户每次用谷歌搜索,都作了一次‘小白鼠’。”

  这种灵活性——增加信号、更改代码、立即测试的能力——就是谷歌团队为什么说他们可以应对来自必应、Twitter和Facebook的任何挑战的原因。事实上,在过去的六个月中,谷歌进行了200多项改进,其中一些似乎在模仿(但超越了)它的竞争对手(谷歌表示这只是巧合,称其多年来一直在增加新功能),其中之一就是实时搜索。

  佩奇数月前曾表示谷歌应该每一秒钟都搜索整个网络,因此使这一功能备受期待。当用户搜索具有时效性的话题时,谷歌结果页面的10个蓝色链接中会有一个“最新结果”框。该框带有拖动条,显示的是从新闻媒体、博客和Twitter等获得最新内容。同样,谷歌使用信号来确保最有用的tweet(Twitter上发布的消息)出现在实时信息框中。

  除了实时搜索,谷歌还引入了一项新功能,称作“Goggles”。该功能可以将用户手机上拍摄的照片视作搜索请求。谷歌一直努力将搜索变成一种随时随地的行为,“Goggles”也是该努力的一部分。有了摄像和语音识别功能,智能手机就会变成你的眼睛和耳朵。只要找到正确的信号,任何东西都可以变成搜索请求。

  成功的根源:雇佣合适的人才

  谷歌的强大计算能力和带宽为公司提供了无可争辩的优势。有人声称这种优势使创业公司无法对其发起挑战。但曼博表示,谷歌成为领导者并非仅仅因为其基础设施。他说:“最、最、最重要的因素是我们雇佣了合适的人才。”

  按照所有的标准,陆奇都是算得上一名合适的人才,他是一位48岁的电脑科学家。曾经与陆奇在雅虎共事的曼博表示:“我对他怀有最高的敬意。”但陆奇去年初离开了谷歌,前往微软担任必应团队负责人。在被问到他的使命时,穿着牛仔和必应T恤、身材瘦小的陆奇字斟句酌地轻声答道:“我们需要始终记住这是一个长久的旅程,这一点极其重要。”他的眼神中流露出“我不会离开”的神情,就像电影《杀死比尔》中的乌玛·瑟曼(Uma Thurman)一样。

  在过去十年中赢得了浏览器战争的微软,在搜索方面似乎怀有“君子报仇,十年不晚”的想法,因为它确信用户除了谷歌算法还需要别的东西。微软搜索发展主管哈利·沙姆(Harry Shum)表示:“如果我们不对算法进行更改,将很难与现在的赢家抗衡,但我们打算对算法进行改进。”

  然而,即使必应对算法进行改进,谷歌很可能做出同样的更改。这就是谷歌成为这样一个令人生畏的对手的原因,它已经开发出了一个足够敏捷的机器,以致可以吸收任何可能对其造成威胁的创新——同时提供着对手无法匹敌的高质量搜索结果。任何人都可以发明一种买机票的新方法,但只有谷歌知道如何找到Mike Siwek。(钦亮)

  谷歌算法是一项进行中的工作——不断的调整和改进是为了提供更高质量的搜索结果。以下是PageRan推出之后的一些主要增加项和更改。——史蒂芬·列维

  附:谷歌搜索大事记

  1997年9月:Backrub搜索引擎

  Backrub搜索引擎在斯坦福大学的服务器上运行了近两年,之后改名Google。其突破性创新在于:按照一个网站被链接(网络上指向该网站的链接)数量和质量对搜索结果进行排序。

  2001年8月:新算法

  搜索算法被完全改写,以便更易于添加新的排序标准。

  2003年2月:本地连接分析

  这一功能给与权威性网站上的链接更大的权值,也使谷歌获得了首个专利。

  2003年夏:Fritz

  该项目使谷歌可以不断随时更新索引,而无需成批更新。

  2005年6月:个性化结果

  用户可以选择让谷歌分析其搜索行为,以便提供个性化结果。

  2005年12月:Bigdaddy

  对引擎进行了更新,使其可以更广泛地抓取网页内容。

  2007年5月:通用搜索

  在图片搜索、谷歌新闻、图书搜索的基础之上,通用搜索使用户可以在同一搜索结果页面上获得不同媒介的内容。

  2009年12月:实时搜索

  实时显示Twitter和博客上的更新。

谷歌回应欧盟调查:否认人为干涉搜索结果编辑本段回目录

北京时间2月26日上午消息,据国外媒体报道,在欧盟委员会宣布对谷歌进行调查之后,谷歌对其搜索引擎的排序方法进行了解释。

  在周四的一篇博客中,谷歌工程师阿米特·辛格(Amit Singhal)谈到了近期一篇呼吁监管者对搜索结果排序方法进行控制的评论文章。他强调,开发搜索排序方法非常困难,暗指任何政府可能都无法很好地对搜索进行监管。

  辛格表示,谷歌每天要处理数以亿计的搜索请求,其中20%是全新的。为了应对大量、多样的搜索请求,谷歌使用很多不同的算法对数据进行筛选。

  他说:“我们的算法使用数百种信号,为每一次搜索挑选最好的结果。这些信号是‘相关性’的指示物,它可能是网页上的词语,也可能是一些复杂计算,比如链接到某一网页的其他网站的权威性。”

  他同时表示,谷歌每天通常要对信号和算法进行1-2次更改,以改善搜索结果,但公司不会人为地选择任何搜索结果。他在博客中写道:“我们认为那种强烈依赖于个人喜好的方法不能提供高质量的搜索结果,而我们的算法却可以。”

  为了表明谷歌也有改进的空间,或者是为了表明谷歌不会偏向自己的网站,他表示:在谷歌中输入“搜索引擎”,谷歌本身并不会出现在靠前的位置。

  博客中并没有透露新的信息,但谷歌表示,欧盟委员会的调查对谷歌的排序方法“提出了很多问题”。

  周三,欧盟委员会确认其正调查对谷歌的三项投诉,但这一工作只是反垄断调查的开始。谷歌表示,微软是此次调查的推动者,因为在三家公司中,一家是微软旗下公司,另一家与微软有关联,另一家公司是英国比价服务网站Foundem。Foundem的联合创始人就是辛格提到的评论文章的作者。该文章指责谷歌利用其支配地位把自己的服务放在搜索结果的前面,谷歌对此予以否认。(钦亮)

谷歌搜索引擎背后的秘密:搜索算法的平衡艺术编辑本段回目录

  导语:北京时间6月4日,国外媒体近日发表分析文章称,凭借强大的搜索引擎,谷歌在网络搜索市场遥遥领先于雅虎和微软等竞争对手。那么,谷歌搜索引擎背后的秘密是什么呢?

  搜索是重中之重

  随着企业规模不断扩大,谷歌开始向多个领域进军,包括网络地图、数字图书馆、视频共享以及桌面软件等等。但是,谷歌的重中之重仍然是搜索引擎。通过谷歌搜索引擎,用户可以在浩如烟海的大量信息中找到自己需要的内容。正因为有了出色的搜索引擎,谷歌才成为了访问量最大、利润最为丰厚、甚至最为强大的互联网公司。

  不过,搜索引擎给谷歌招致的抱怨也最多。每天都有数百万用户在使用谷歌搜索引擎之后感到失望,因为他们无法找到自己需要的旅馆、医药处方、或者人物背景。谷歌经常能帮助用户找到想要的东西,但并非总能做到这一点。基于这一原因,阿米特·辛格哈尔(Amit Singhal)和其它数百名工程师一直致力于改进谷歌搜索引擎,希望能缩小“经常”和“总是”之间的差距。

  互联网的生命之源

  辛格哈尔是谷歌搜索引擎排名算法的大师。这一算法主要用于确定哪些网页是用户问题的最佳答案,它是谷歌核心团队——搜索质量部门的重要组成部分。长期以来,该部门一直是个谜,谷歌很少允许团队成员抛头露面。谷歌对辛格哈尔及其团队的评价非常高,将他们视为公司最为根本的竞争优势。谷歌认为,要想抵御来自雅虎和微软的强势入侵,就必须降低让用户失望的频度。而在这一过程中,搜索质量部门发挥着不可替代的作用。

  Federated Media首席执行官约翰·巴特勒(John Battelle)表示:“谷歌创建的核心价值就是排名算法。”数据显示,网络商店有四分之一到二分之一的访问者来自于搜索引擎;很多用户都无视媒体网站的网页,而是通过谷歌直接访问所需的特定页面。他说:“从上述事实可以看出,谷歌已经成为了互联网的‘生命之源’,谁也离不开它。”

  用户无法看到搜索引擎背后的算法和艺术,但事实上,谷歌搜索质量团队每周都要对搜索引擎算法做数次改进。在他们的努力下,谷歌搜索引擎可以更加有效地理解用户的真实意图。例如,有些人搜索“苹果”是为了了解同水果相关的信息,有些人则在研究苹果公司的Mac或iPod。尽管搜索内容相同,但用户的意图却有着天壤之别。辛格哈尔表示:“过去几年里,搜索已经由‘给我输入的东西’转变为‘给我想要的东西’。”

  不为人知的内幕

  辛格哈尔今年39岁,是一名印度人,于2000年加盟谷歌。他目前是一名谷歌研究员,这是谷歌专门为精英工程师设立的职位。不久前,一名《纽约时报》的记者获准采访了辛格哈尔和其它搜索质量团队成员。尽管谷歌对很多问题都讳莫如深,但这名记者仍然获得了很多以前不为人知的内幕。

  在谷歌不断改进搜索引擎的过程中,面临的最大挑战是日渐庞大的规模。目前,谷歌已经成为全球访问量最大的网站,支持112种语言,将数百亿个网页纳入索引,每天处理数亿次搜索请求。更为糟糕的是,很多网页创建的目的就是吸引眼球,里面充斥了大量的广告、色情内容和财务欺骗信息。因此,用户希望谷歌能在搜索结果中排除这些无用网页,帮助他们找到最相关的信息。

  谷歌搜索质量团队主管尤迪·马恩伯(Udi Manber)表示:“用户的期望值非常高。当我们刚刚推出搜索服务时,如果用户能通过搜索引擎找到想要的东西,就会感到是一个奇迹。现在的情况则完全不同,如果用户在前三个搜索结果页面中找不到想要的东西,就认为搜索引擎存在问题。”

  谷歌搜索业务充分展现了其打破常规的管理模式。谷歌拥有数百名工程师,其中包括来自学术机构的顶级搜索专家,这些人通常被松散地组织在一起,从事自己感兴趣的项目。但在搜索引擎方面,谷歌会仔细、严格地检查工程师的独立成果,以确保新的搜索算法带来的好处多于坏处。大多数情况下,改进和质量控制都涉及平衡的艺术。马恩伯表示:“改进总会同时带来正面和负面的效应,我们必须衡量哪一种影响更大。只有正面效果,没有负面效果的改进不存在。”

  搜索团队大揭秘

  谷歌搜索质量团队在谷歌办公园区的43号楼(Building 43)工作。由于公司联合创始人拉里·佩奇(Larry Page)向往太空旅行,一个与“太空船一号”同样大小的复制品占据了43号楼的休息室。这一复制品也随时提醒参观者,谷歌就像火箭一样迅速升起。辛格哈尔和其它三名顶级工程师的办公室就坐落于43号楼的顶层,在他办公桌附近的黑板上,到处涂满了图表、问题和数学公式,当然还有用户对谷歌引擎提出的各种意见。

  谷歌的所有员工都可以使用“Buganizer”系统报告搜索问题,而辛格哈尔正是负责解决问题的人。辛格哈尔的同事马特·卡兹(Matt Cutts)表示:“辛格哈尔收到他人提出的问题之后,总是视若珍宝,并努力通过修正算法解决问题。”有些时候,用户或其它谷歌员工提出的问题需要立即得到解决。例如,如果不久前通过谷歌搜索“法国大革命”,就会出现大量与法国总统大选相关的信息,而不是打倒法国国王路易十六的那场革命。谷歌搜索质量团队很快改变了网页的权值,从而解决了这一问题。

  当然,有时会出现更为复杂的问题。2005年,谷歌产品经理比尔·布罗格(Bill Brougher)指出,当用户搜索“teak patio Palo Alto”时,并不会返回这家名叫“Teak Patio”的本地商店。辛格哈尔随即启动了一项名为“Debug”的内部计划,检查计算机系统对每一个查询和网页的评价。

  辛格哈尔最终发现,Theteakpatio.com之所以没有在搜索结果中显现,主要因为谷歌搜索算法并没有赋予来自Palo Alto的其它网站足够的权值。收到投诉后的两个月内,辛格哈尔及其团队改进了搜索算法,从而解决了相关问题。不过,辛格哈尔并不能匆忙地解决所有问题,因为搜索引擎的每一次调整都会影响到很多网站。因此,他将很多问题都记在黑板上,如果同样的问题再次出现,他就会调整其优先级。

  人才是成功根本

  为了提高搜索引擎的质量,谷歌一直致力于从研究实验室和大学招募人才。例如,辛格哈尔就来自于AT&T实验室;马恩伯最初曾经在亚利桑那大学担任计算机教员,随后加盟雅虎担任首席科学家,之后还曾运营过亚马逊搜索部门。他去年从亚马逊加盟谷歌,很快就发现谷歌搜索引擎遥遥领先于学术实验室和其它企业竞争对手。他回忆道:“加入谷歌后的前三个月里,我经常会说,‘我有一个想法’。但他们总是告诉我,‘已经有人提出过这个想法,它无法发挥作用’。”

  谷歌搜索质量团队的分工非常明确:辛格哈尔等工程师主要负责用户输入关键字后的系统处理;一部分人主要负责改进搜索结果,例如优化网站描述,让用户更容易了解一个网站的内容;以马恩伯为首的其它成员则主要负责维护庞大的网页索引。在早期阶段,谷歌每六到八周创建一个新索引,而现在该公司每隔几天就要重新核对很多网页。

  在编辑索引的过程中,谷歌主要考虑每一个网页的“PageRank”。PageRank是谷歌联合创始人佩奇和塞吉·布林(Sergey Brin)的重要发明,它主要用于标识其它网站链接到特定网页的次数。网页的PageRank越高,在搜索结果中的排名也就越高。辛格哈尔已经开发出一个更为精确的系统来为网页排名,它涉及了200多种信息,PageRank只是其中之一。

  要完全了解谷歌搜索引擎所采用的技术是一项不可能完成的任务,因为这是谷歌赖以成功的根本,同时也是其它竞争对手梦寐以求的东西。只从搜索结果来看,很多时候并不能看出谷歌搜索引擎与竞争对手的差异。但搜索专家丹尼·沙利文(Danny Sullivan)认为,谷歌仍然领先于竞争对手。巴特勒也表示:“人们仍然认为谷歌是搜索的黄金标准。”(马丁)

参考文献编辑本段回目录

http://tech.sina.com.cn/i/2010-02-26/11043883554.shtml


→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 谷歌算法

收藏到: Favorites  

同义词: Google算法,Google搜索排序

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。