揭开Google数据中心五大神话编辑本段回目录
各种媒体上关于Google的数据中心有很多文章,包括他们怎样进行数据中心的运营、管理和分析,造成了一大批Google的神话,但这里有些并不 准确,这是我从与Google的工程师与数据中心生态系统的专家们讨论后得出的结论。
虽然表面上看Google正在做的就是数据中心的最佳实践,但并非总是如此。Google数据中心的运转是为他们的业务——广告收入而服务的。而重 要的是你的数据中心应该为你的企业服务,而不是为了Google。每当我谈到这里,总是会听到一些数据中心的专业人员叫着“天啊”,这让人无法理解,因为 用苹果(Google的内容交付)和桔子(企业应用)相比是不公平的。你的目标和Google的并不一致,你以可用性和可靠性为重点,而Google则更 重视对可用性的成本控制。
闲话少说,下面就是我所认为的Google数据中心的五大神话。
神话1:Google的业务关键应用和广告系统都运行在PUE 1.2的数据中心上。
这大概是最大的神话。Google运行着两种类型的IT系统:内容交付和关键业务服务。让我们来看看Google这两种类型的数据中心各有什么目 标。
首先是内容交付,这是一种基于Google文件系统与MapReduce模型的软硬件系统,是YouTube、GMail和Google Apps保存所有数据的地方。内容交付系统必须保证绝大部分时间可用,但Google早已为一些冗余故障和断电问题设置的是一些道歉的消息。在这种环境里 他们可以这样做,因为这里可用性并不是头号要求。内容交付系统遵循的原则是成本最小化利润最大化,这些确实是PUE非常非常低的大型设施。
关键业务服务包括Google的内部事务,比如保持企业的日常运行(客户管理和人力资源等内部系统),以及他们用来发布广告和收钱的广告系统。如果 没有这些系统,Google作为一个企业就不存在。这些系统是异构的,各种软件包运行在各种各样的常规硬件上。这些系统可是Google的命脉,因此可用 性是第一位的。这些常规设施的最佳实践的PUE大概在1.5和1.9之间,Google从没有透露有关这些设施的资料。
神话2:Google使用PUE作为管理数据中心的主要指标。
虽然PUE的确是Google的一个重要指标,但它更多是充当衡量怎样把成本降到最低的手段,Google的工程师们告诉我他们还是根据“业务单 位”(比如YouTube和GMail)的单位收益率来衡量的。当然我很赞赏Google纳入PUE这个指标,但希望他们会公开承认管理IT底层架构的真 实方法。
神话3:Google使用可再生能源来给数据中心供电。
虽然Google确实使用可再生能源来给许多设备供电,但这些设备目前没有任何迹象表明这些设备是大量用在Google的数据中心里的。即使是最先 进的太阳能设计(这来自艾默生而不是Google)也只能给数据中心提供16%的小部分电力,而且使用太阳能还要面对太阳下山的问题。
当Bloom Energy拿出小型的电池盒Bloom Box时,他们称Google已经测试了18个月,测试是在Google山景城的总部进行的,而且他们说已经Bloom Box是98%可靠的(可用的)。虽然这是燃料电池在扩展性和可靠性的伟大一步,但目前的可靠性还不足以支撑任何数据中心。当许多记者发现Google是 他们的客户时他们立即得出结论说Google的数据中心已经在使用了。不,这不是真的,他们只是测试而已。
神话4:Google battery-on-server(服务器上的电池)技术提供了一个更强大的能源备份解决方案。
Google的内容交付数据中心的服务器设计包括了一个铅酸电池备份的12V系统,而不使用中央UPS。这种电池据说可以在断电后几分钟内恢复供 电,但注意,如果不成功,还需要另外的备用发电机来供电,这是Google在数据中心效率峰会上特别指出的,“如果发电机在几分钟内无法启动,这说明你有 更大的麻烦,因此最好有一个以上的断电保护策略。”
这重新回到可用性与效率的选择上,Google再次选择了成本。传统的UPS电源系统可以支持数据中心一个小时或更多,电池系统则可以将运行时间延 长的更长。battery-on-server基本上不能扩展,但它确实提供了一个分布式的电池备份,消除了传统设计对中央UPS的需要。
神话5:你的数据中心应该准备与Google同样的标准。
让我们来看看,Google的内容交付数据中心在完全一样的物理架构上运行着单一应用。但你的数据中心中运行的是ERP、CRM、HR、交易和网络 应用。这些应用具有不同的架构以及在服务、可用性与性能上的不同要求。
虽然Google的内容交付数据中心在执行任务时的表现非常好,但它们与一个运行关键业务的企业数据中心是截然不同的。管理好你的团队以及员工做好 沟通是更重要的,因为这时候谈论“我的PUE比你更低”或者“我的PUE和Google相同”是最没有意义的,因为你提供的服务和Google所提供的完 全不同。
除了这五个,当然还有更多的神话。但我们应该了解的不是怎样追随某个内容交付系统,而是如何最好的运行企业数据中心,而并找出优化企业的最佳 实践。
原文:Top 5 myths about Google data centers 作者:Joe Polastre
探秘Google数据中心编辑本段回目录
Google数据中心一直是戒备森严的禁地,因为Google的很多技术创新被视为公司的竞争优势。不过根据其2006年作出的让自己更加透明的许诺,Google已公布了他们位于Mountain View, Calif总部的数据中心的一些细节。并在 YouTube 发布了一系列视频让众人一睹为快。
Google工程师Jimmy Clidaras 在他的博客文章中写道,我们首次公布了我们的超节能数据中心的诸多细节,并发布了Google 集装箱数据中心及一个水处理设施的视频。其中讲到了我们如何评估数据中心的节能指标以及如何将能耗降低85%。那些设计了电池备 份系统的工程师还亲自带来了一台服务器。
能效比对于那些依赖数据中心来运行的公司来讲直接影响其收入,Google工程师James Hamilton解释道,尽管服务器看 上去是数据中心的主要成本,但随着能量消耗的降低,数据中心的运营成本会降低,能源将成为最重要的东西。
在Google数据中心节能峰会上,Google表示他们的能效比(PUE - 数据中心总能耗与IT设备能耗比)已经从2008年第三季度的1.21下降到2008年第四季度的1.16。PUE为1表示数据中心没有能源损耗,而根据 2006年的统计,一般公司数据中心的能效比为2.0或更高。Google的1.16已经低于美国能源部2011年的1.2的目标。
Google还设计了一个看上去其貌不扬的服务器, 使用一个12瓦电池供电,这比数据中心的UPS更 可靠。Rich Miller在一篇关于数据中心的博客文章中表示,这个设计让 Google的UPS利 用率达到99.9%,而一般数据中心只能达到92%~95%。
因为众所周知的原因,YouTube视频无法访问,一起来回顾一下2007年始建的Google Iowa州数据中心的一些施工图片:
2007年6月,Google在 Iowa 州 Council Bluffs 的数据中心开建
整体墙板吊装
数据中心南墙,接近完工
吊装墙体
7个周的施工,即将完工
工人们检查屋顶
外墙已完成
10月,开始整理周围的道路
外部结构打桩
12月因雪停工
2月安装制冷系统
建设绿化
外观
防治水污染的警示牌
屋顶的制冷系统
近观屋顶制冷系统
将被拆迁的长老会教堂(Google会给多少拆迁费?)
周围在建的大桥
附近 Manawa 湖面有人在渔猎Google“海洋数据中心”揭秘 欲沉入数十米下的水底编辑本段回目录
今天的后续报道将提供4张来自专利局的图像,会读专利图的朋友们可以从图中了解这水上数据中心到底是一个什么原理。
这种方法的好处显而易见,数据中心将沉在水里工作,如果安排得好,一个40兆瓦的数据中心不需要任何房产和物业税,并且也几乎不使用可造成污染的能源.
动力方面,波浪能量将形成一个“波浪农场”,为Google的数据中心产生电力,该专利文件中还描述了一个海水冷热交换系统,可以为数据中心作冷却工作.
之前,Google曾经递交了有关于集装箱内便携式数据中心的专利,但Sun等公司先人一步推出了现实中的产品,今天,还是集装箱系统,但Google要将它沉入数十米下的水底.
而水底数据中心也肯定会随之带来各种各样的领海司法管辖权问题.
谷歌数据中心揭密编辑本段回目录
Google一向很少对外透露其数据中心的工作,但5月28日,Google伙伴Jeff Dean在Google I/O会议的听众前,轻轻撩起了Google公司基础设施的神秘面紗。
一方面,Google用的是一般的服务器、处理器、硬盘、软驱等等。另一方面,Dean似乎认为1800台服务器也是非常普通、不值得一提。而Google公司使用的软件,能在半秒之內回应700至1000台服务器的搜索請求,则完全是另一回事。
Google从未透露他们究竟拥有多少台服务器,但Dean认为至少不下数十万台。Dean表示,每個机柜里存放了大约40台服务器。而根据某项估计,Google目前在全球有36個数据中心,以每个中心有150个机柜计算, Google的服务器至少超过20万台,而实际数字还要比这大得多,且每天都在增加中。
不论真正的数字有多少,Google的成就也实在惊人,部分原因是部分原因是他们推翻了电脑业的传统做法。当所有的超大型数据中心,如纽约股票交易所或航空公司的联合订位系统都是采用许多主流服务器和软件系统的时候,Google的数据中心绝大部分却是自身的技术建设而成。
有些制造和出售服务器的公司虽然不以为然,但Google显然相信自己的技术命运最好操纵在自己手中。 Google搜索产品与使用者经验副总裁搜Marissa Mayer在5月29日的演讲中提到,共同创办人Larry Page鼓励员工对“不可能的事情”保持一种健康的不敬。也就是说,别太相信有什么不可能的事情。
要维持如此大规模的运作,Google必须对每一台机器都抱有一种随时可牺牲的态度,服务器制造商喜欢宣传他们的主机质量优越、具有高度承受故障或当机的能力,但Google仍然宁愿把钱投资在冗余软件系统上。
Dean表示:“我们的观点是,拥有两倍数量但比较不可靠的硬件,胜过数量一半但比较可靠的硬件。你必须为软件提供可靠保障,如果你有1万台主机在运作,每天一定会有一些意外。”
Dean说,每次新业务上线最能显示出硬件的脆弱。一般每个新业务上线的第一年,通常会发生1000次个别主机的故障、数千次硬盘故障;一次电力输送问题,会导致500至1000太主机失效约6小时;20次机柜损坏,每次会造成40至80台主机下线;5次机柜摇晃,会导致一半的网络封包在传送过程中遗失;整个业务至少一次重新上线,在两天之内的任何时间,影响5%到主机。整个业务中还有一半的几率会过热,可能导致5分钟内让几乎所有服务器当机,恢复则需要花费1到2天地时间。
虽然Google用一般的硬件组装其服务器,却不用传统的封装,他们要求英特尔提供特制的主机板。Dean表示,Google目前在每40台服务器的机柜外,都包了一层外壳,这是Google自行开发的设计,而不是服务器厂商提供的外壳。
Dean表示,Google使用了几种服务器组装的方式,有些配备了很多硬盘,有点则数量比较少。还有一些大范围的差异,他说:“我们不同的数据中心都有一些差异,但数据中心内部不会。”
对于服务器本身,Google偏好使用多核心晶片。许多习惯追求运算速度的软件公司其实很难适应多核心的晶片,但Google沒有这种问题。他们在技术上早就必须适应横跨数万台电脑的结构,因此他们已经进入平行运算的世界。
Dean说:“我们真的很喜欢使用多核心主机。对我们而言,多核心主机就像很多相互连接、性能优越的小机器,对我们来说相对好用。”
虽然Google对搜索和其他服务都要求快速回应,其平行运算能在单一指令的执行相对较慢时产生快速回应的结果。这对于多核心处理器和多线程模式设计者是一大鼓励。Dean說:“单线程的表现对我们来说无关紧要,我们有很多平行化的问题。”
那么Google要如何处理这些一般的硬件问题呢?用软件。
Dean说明了Google软件的三个核心要素:GFS(Google档案系统)、BigTable和MapReduce演算法。虽然Google资助了许多有助于其开展的开放源代码的计划,这些仍然属于专有软件。
Dean表示,三者中级别最低的GFS几乎在所有主机中运作,负责储存资料。某些GFS的化身是“许多petabyte大小”的档案系统。目前有超过200个业务在执行GFS,其中许多都包含数千台主机。
GFS把一块储存的资料(通常是64MB),至少放在三台称为chunkserver的主机內;假如chunkserver发生故障,主服务器便负责吧资料备份到一个新的地方。Dean說:“至少在储存层级,主机故障完全由GFS系统处理。”
一窥Google数据中心自行定制的40台服务器机柜。基础建设大师Jeff Dean在Google I/O大会上展示了这张照片。
Google目前的全球数据中心,19个在美国,12个在欧洲,3个在亚洲(北京、香港、东京),另外3个分布于俄罗斯和南美,未来还将在台湾、马来西亚、立陶宛等地增加数据中心。
位于北京的数据中心(即图中的36号)主要为谷歌中国(google.cn)提供服务。
我曾在北京朝阳区酒仙桥附近的“世纪互联”机房见过谷歌的一组服务器,样子很像普通PC机。不过,仔细看了看型号,原来是“DELL Precision 390 工作站”,价格6000~7000元/台,估计谷歌的员工都是用这种机器吧。无论如何,谷歌也可以算作是继承了Google使用廉价PC机作为服务器的传统吧。另外,该机柜的最上方有一台“Juniper Netscreen 防火墙”,价格不菲。
百度、新浪、搜狐是根据智能DNS解析,将电信用户解析到电信IDC机房的服务器,网通用户解析到网通的IDC机房,其他用户解析到对应的IDC机房。而谷歌则不同,所有中国用户访问谷歌(www.google.cn)都只会轮询到两个IP地址:203.*.*.*和203.208.*.*,这两个IP是谷歌的负载均衡器,都位于酒仙桥的“世纪互联”机房。
BGP(边界网关协议)主要用于互联网AS(自治系统)之间的互联,BGP的最主要功能在于控制路由的传播和选择最好的路由。中国网通、中国电信、中国铁通和一些大的民营IDC运营商(例如世纪互联)都具有AS号,全国各大网络运营商多数都是通过BGP协议与自身的AS号来实现多线互联的。使用此方案来实现多线路互联,IDC需要在CNNIC(中国互联网信息中心)或APNIC(亚太网络信息中心)申请自己的IP地址段和AS号,然后通过BGP协议将此段IP地址广播到其它的网络运营商的网络中。使用BGP协议互联后,网络运营商的所有骨干路由设备将会判断到IDC机房IP段的最佳路由,以保证不同网络运营商用户的高速访问。
当一个网通用户访问www.google.cn(203.208.*.*和203.208.*.*)时,通过“世纪互联”的BGP路由器,经AS9802,到达谷歌的服务器。
当一个网通用户访问www.google.cn(203.208.*.*和203.208.*.*)时,通过“世纪互联”的BGP路由器,经AS9308,到达谷歌的服务器。
谷歌的网页本身就比较简洁,再借助“世纪互联”的BGP全线互联,谷歌只在一个IDC机房部署服务器,就可以保证中国网通、中国电信、教育科研网、中国移动、中国联通、中国铁通、中国卫通等用户都能高速访问www.google.cn