企业如何有效改善数据中心
数据中心的工作人员总是面临着挑战,即如何利用现有设施提高其处理能力。虽然硬件、软件和网络的可靠性都在不断改善,但是电力和机械基础设施还停滞不前。人们对于数据中心失误事故的评价表明,操作员失误、电力和机械单点故障、设计问题以及建设缺陷都是导致数据中心故障的主要原因。
【IT专家网独家】数据中心的工作人员总是面临着挑战,即如何利用现有设施提高其处理能力。虽然硬件、软件和网络的可靠性都在不断改善,但是电力和机械基础设施还停滞不前。人们对于数据中心失误事故的评价表明,操作员失误、电力和机械单点故障、设计问题以及建设缺陷都是导致数据中心故障的主要原因。
这种状况在未来五年内还可能继续恶化,因为越来越多的数据中心开始搬迁或者扩张。Gartner公司的一名分析师Rakesh Kumar说,全球1000家公司中有超过70%的公司表示他们将在未来五年内改变他们现有的数据中心设施。
“这些传统的数据中心通常被建造成约为100到150瓦每平方尺的建筑规格。然而目前的设计需求大约为300到400瓦每平方尺。到2011年,这个数据可能会上升至超过600瓦每平方尺,” Kumar说,“言下之意就是,到时候大多数现有数据中心将无法承载下一代高密度设备,所以首席信息主管将会要重新装修他们已经建好的数据中心,或者选择新的地址和替代品(例如使用托管服务商提供的服务)。”
但是,IT硬件需要的压实的空间主要来源于空前增长的电源和冷却需求、超出预计的基础设备架构、设计标准和空间分配等问题。在很多数据中心,用来支持搞密度计算的电源和冷却的“后台”空间要比计算机区域大很多。电力与机械区域可以比250瓦每平方尺环境中的计算机区域大四倍。
同时,设施基础建设支持通常不能得到保障,因为数据中心基础设施只占房地产市场的一小部分,而且相关财政收入也微乎其微。在美国所有房地产建设中数据中心占的比例不到0.1%。此外,这些很多是空闲或者空置楼房,有些实际上是“无人机房”(设施都是全自动化的),没有任何居住者。
另外,在数据中心环境中,每年的设施成本,包括基础设施折旧造成的损失,只占IT预算的0.5%。在一家大公司,运营和维护机电基础设施的成本只占年度收入的0.001%,几乎可以舍去不计。这些小成本花费当然很难获得高层管理人员的注意。
而且,数据中心通常只是大型建筑物中间的小面积区域,这就足以掩盖其真正的运营风险和公共设施费用。例如,一家国际制药公司最近从1000平方尺的高密度服务器室搬迁至5000平方尺的办公楼,整个建筑的公共设施费用就加倍了,而且在过去的9个月中一直维持在这个水平。
“紧急切断电源”问题
这个问题就将我们引入了如何才能低成本低风险高效益地提高你的数据中心的关键电源系统的可靠性:检查你的紧急切断电源(emergency power off,EPO)开关。
这些不起眼的按钮一般被设在数据中心的出口处,只要往上推动,关键电源就会关闭并且只能手动才能恢复(通常由熟悉系统的电工操作)。发生过很多起因为紧急切断电源引发的破坏性事故,包括关闭紧急通道以及突然中断国际贸易交易、公司清算帐目、药学研究和空中交通管制等。
几乎所有依赖于中央数据中心功能的公司都发生过类似事故。
有些EPO事故是由于以下原因造成的:线路故障、地下电缆阻碍EPO通道,水管漏水和维护不善。而大部分数据中心的EPO事故是因为员工无意推动EPO按钮引起的。在很多情况下,那些无意推动EPO按钮的员工误以为他们是在关闭磁性安全锁。
至少在最近一起事故中,是有人故意的:一个系统管理员关闭了控制整个加州电力网的数据中心电源。
在美国每年都会有数以百计的事故发生在数据中心。这些数据中心都拥有一样的设备,数以百万元的花费都投在了数据中心以实现电气容错性和连续可用性。所有受数据中心控制的IT部门、网络和通讯设施都处于危险之中。
尽管如此,EPO按钮都必须遵守国家电力守则的645.10规约和645.11规约。这些规约规定在每个出口都有EPO系统得计算机室要禁用地面下的电源并禁用向地面下提供冷却供应的空调电源。根据规约规定,断线机制可以使单一的按钮或者两个相邻的按钮---一个用于电源,另一个用于冷却。
不过,在很多情况中,这些EPO按钮都是安装在很多其他需要安装的出口的按钮的旁边,包括火灾扑灭释放/终止按钮、灯的开关、安全智能卡阅读器、灭火器、火灾报警器、电话、安全内部通信系统开关和出门开关。
这么多按钮都安装在出口处很容易使数据中心工作人员试图打开灯光或者呼叫安全中心的时候,错按EPO按钮。
即使只是瞬间错按EPO按钮都会中断数据中心所有工作,并需要维修人员来重置所有中断了的电力设备。电力设备复原至少需要30分钟,然而在数据中心,仅仅是一秒钟的中断都可能对硬件、数据库和企业利润造成不可弥补的损失。



