改造“紧急断电”按钮
从何处改造
目前很多用户都在关心数据中心的改造,有人认为应该增加数据中心的容量,也有人说要增加冗余,还有人认为应该提高整体的效率和电力机械等基础设施的可靠性。以上每条建议都是很不错的建议,但是不能混淆它们之间的顺序。
如果在现有设施中增加处理容量,那么对数据中心的员工来说是一大挑战。如果硬件设施不变,只增加软件和网络的话,电力和基础设施的更新速度就会跟不上步伐。一般公认的数据中心的故障如操作故障、电力和机械单点故障、设计缺陷、建筑缺陷是导致数据中心瘫痪的主要原因。
随着数据中心的重新部署和扩张,未来5年这种状况还将进一步恶化。Gartner的分析员Rakesh Kumar说,未来5年中,全球1000多家机构中70%的数据中心都不得不大刀阔斧地改善其内部的设施。
“这些是典型的老式数据中心,最初的供电设计规格仅为100到150瓦/平方英尺。目前数据中心设计规格一般为300到400瓦/平方英尺。到2011年,这一数字将增加到600瓦/平方英尺。”Kumar还说,“也就是说,目前大部分的数据中心在新一代的高密度电器中都将难以胜任,因此CIO们不得不重新部署他们的选址战略,建立一个新的或者是寻找更大的数据中心集中供应能源。”
IT硬件所需的空间压力带来的是电力和空调冷却、基础设施超负荷、设计标准和空间分配等的需求猛增。公司“后屋”一般是用来放置支持高密度计算所需要的电力和冷却设施。一般来说,这个空间比计算机房都大。电力和机械设施区域比活地板间隔的250瓦/平方英尺的计算机房大约400%。
相比而言,技术设施配备的变化则很小,一来是因为基础设施只占总资产市场的很少一部分,再则是因为其获得的财政收入也只占很少份额。在美国,数据中心仅占不足0.1%的建筑资产。有些是人为管理的建筑,有些则无人管理。实际上很多设备都是全自动化管理。
另外,对数据中心来说,年度设备损耗包括基础设施损耗,仅为IT预算的0.5%。大公司更是这样,操作和维护电力和机械设施的费用不足整体预算的0.001%,这个数据简直是微不足道。如此小的支出肯定不会引起高层的注意。
一般来说,数据中心都是整栋大楼中很小的一个区域,这掩盖了其操作风险和使用消耗的真实面貌。例如,一家跨国药业公司最近将1000平方英尺的高密度服务器室迁至50000平方英尺的大办公楼里。整栋楼的支出账单增加了一倍,并在过去9个月中一直维持这个水平。
EPO问题
首先来讨论最低成本、低风险、高收益的改造方案,这就是改进数据中心电力系统利用的关键:紧急断电开关(EPO,Emergency Power Off)。
这些看似无伤大雅的开关一般都安装在数据中心的出口处。一旦按下,所有电源都将被关闭,并且只有通过人工才能恢复,有些甚至只能通过专业电力人士恢复。EPO导致的损失包括关闭了紧急呼救线路,妨碍了国际贸易、公司账户、药学研究实验过程和空运等所有工作。
事实上,每种工业都经历过EPO带给它们的损失。
有些EPO故障属于接线故障、地下电缆故障拉动开关的误操作、漏水和维护不良等,但大部分是人为性质——错误地按下了EPO开关所造成的。很多案例中都是员工误以为这个出口处的按钮是用来消除安全锁磁场的。
在最近的一次案例中,EPO则是被故意按的:一个系统管理员关闭了控制整个加利福尼亚电栅格的数据中心。
每年,美国有数以百计的数据中心事故报告。这些数据中心无一不是当初投资数百万美元,以期电力系统达到耐受性及实用性。事实上,任何把电力系统建筑在活地板的业主如IT、网络和电信公司等都存在这样的风险。
根据美国《电力法案》第645.10和645.11条款,EPO是必需安装的。这些条款要求每间计算机室都必需在每一个出口配备EPO系统,用来能够切断活地板下的电源,还要切断活地板上的空调电源。根据法案,这个关闭机制由一个或两个相连的按钮组成,一个切断电源,一个切断空调。
但事实上,EPO按钮往往被安置在出口与其他按钮相同的地方,如火灾紧急疏散按钮、电灯开关、安全门卡读卡器、灭火器、火警仪表、电话、对讲机甚至出口的开门按钮旁。
如此混乱的排放很容易导致数据中心管理员仅仅是想开灯或者呼叫保安的时候误按了EPO按钮。
哪怕是轻轻一按EPO按钮也会完全切断数据中心的电源,然后需要动用所有员工的努力恢复所有电器。这至少需要半个小时的时间——然而谁都知道,仅仅不到一秒的断电也许就会造成硬件系统、数据库甚至整个公司利益都难以挽回的巨大损失。
很有可能这一小小的失误就是让电力损失很大的原因。这样的断电情形同安全性失效、发电机失效和断电器失效一样,都是导致断电的原因,但是却从没有同上述失效一样得到正确对待。正是因为EPO按钮是故意按下去的,不管有意也好,失误也罢,它们统统被认定为事故而不是失效行为。
改造EPO装置
有个办法可以让数据中心的紧急断电按钮的危害减少。早在十年以前,很多数据中心就签署了这样的协议,那就是数据中心的每个出口仅需几个小时和几百美元就可以搞定——对于一个现代化数据中心来说,能够消除风险,这笔花费真是很少。
有一种EPO的装置可以避免误操作。这种装置上面有很明显的标志“紧急断电按钮”,就是为了区别数据中心入口处的其他设备。EPO上有键入的锁盖,钥匙是插在上面的。打开盒子必须费一番心思,但当真有突发事件时,这个锁却不会成为障碍。
在外盖下是一个电池供电的微型开关,其警示声音为90分贝,一旦安全警报响起就会促使第二个人提起微型开关。在距EPO开关约几英尺附近可设置电话。
另外,EPO还需要设置一个能够操作和维护的自动防护装置系统。也就是说当主干线在供电的时候这个装置能够进行维修。很多人害怕更换EPO附近一个烧坏的灯泡,就是怕不小心碰到EPO开关造成整个数据中心断电。
其他设计方案还包括安装一个需要用钥匙打开的两键的锁式按钮。还有人建议应该在EPO外盖上同时安装一个可旋转的摄像头防止心怀不满的员工故意板动EPO按钮。
最终可以认为,在EPO按钮上加注标志,注明“EPO(紧急断电开关)”。它可以切断室内所有电器的电源。仅用于特殊情况求生。“对于非英语母语的员工来说,使用双语语言标识更好。”Kumar说。
30年以前,法案制定官员要求安装EPO是因为考虑到,电源安装在活地板下有火灾的隐患。数据中心有很多断路器,如果某人不小心触电,很难辨别到底是哪个电源的问题。如今的法案降低了EPO对活地板和装有地面断路器的电力装置系统的火/烟检测系统的要求。
实际案例中,EPO能够挽救人类生命的案例尚无记载。加拿大有意将此EPO要求从电力法案中剔除。不过像其他基建类法案一样,一旦建立,便很难再剔除。(丁小鱼编译)
链接
错误EPO是致命要害
初步的统计资料显示,大多数数据中心将在未来的5年内由于错误的EPO导致发生宕机。
紧急断电系统经常被称为数据中心致命的点。对于数据中心的管理人员来说,最可怕的噩梦就是发生EPO时的跳闸,无论其是人工的还是自动的。立即切断给计算机的供电对于硬件和应用软件极其有害。对于配备了最好的设备和最高冗余水平的数据中心来说,只要设备被启动,整个中心就会在约1秒钟之内停止运转。尽管这对数据中心的冲击很大,但由于国家电气和火灾法规的规定,在大部分情况下还是不可或缺的。
在多数情况下,错误EPO的解决办法非常简单,因此由此产生的对数据中心的冲击是可以避免的。不幸的是,很多数据中心操作人员不了解这些系统是如何工作的,对故障和自动跳闸也不敏感。现在部分业内数据显示,数据中心大概每5年经历一次故障性跳闸。对于任何希望达到 99.999% 可用性(5个9)的数据中心,一次EPO错误就会使实现这一目标的所有希望付之一炬,尽管保持的无错误记录是那样地完美。(ccw- 2008年02月25日第06期 34)
- 1谁在导引信息管理的潮流
- 2美光伏双反大棒落下 中国企业集体反对
- 3服务器虚拟环境更需重视数据保护
- 4独家:公用存储 企业存储领域的发展远景
- 5公安局长曝父与妻乱伦 调查并无“水洞公安局”
- 62007Sophos全球监控网络研究报告
- 7西安OA办公自动化软件,哪一家服务最好?
- 8怎样用iReport制作Web报表
- 9云南山体滑坡已发现44名遇难者 气温低成最大救援困难
- 10OA软件可以通过选择日期查看其他周的车辆使用情况
- 11用Web服务实现动态业务组装
- 12OA办公软件可以直接点击这个模板名称链接即可
- 13多地感受今冬最冷一天 专家称,最冷时段还未到来
- 14成都轿车闯黄灯罚6分:无近距离跟车 时速30km
- 15CCM让千万用户更满意
- 16来自基于磁盘备份的能动力量
- 17OA系统办公管理系统的项目协作管理功能好用吗?
- 18美批准6330亿美元军费 承认日本对钓鱼岛管辖权
- 19网站如何防范“上传漏洞”入侵
- 20如何选购UTM?
- 21中国旅游团19名成员在韩国失踪 均为山西男子
- 22十大SaaS流行术语
- 23日媒:中国二炮电子战能力强 日美难挡导弹攻击
- 24业务过程执行的7个谬误
- 25泛普OA软件中资产送修的操作页面是怎样的?
- 26技术突破还是信息安全的末日
- 27缅军炮弹损毁云南盈江民居 战机两次进中国领空
- 28美国国务卿希拉里因病晕倒 撞到头部致脑震荡
- 29按部就班设计基于Web中间件的业务流程
- 30我国明确农历九月初九为老年节 常回家看看入法