数据中心运维管理对象涉及到机房建筑、机电设备、IT设备、IT系统、数据、人员以及制度流程等,管理目标包括实现收益、规范高效、控制风险、优化资源等诸多方面。数据中心系统构成和相关方诉求的多元化对数据中心运维管理提出多维度的要求。
目前,数据中心管理过程中的管理标准、作业标准、维护标准、巡检标准、数据记录的格式标准以及报告报表等汇总材料的格式与取值方法都存在巨大差异,这就造成了不同部门、不同职能以及不同岗位人员在数据记录、统计与管理上也存在差异。因此,在出现跨职能或特定岗位人员变动时,对于管理所必须的基础数据就会存在很大风险。很难发现影响数据中心可用性的潜在诱因,并最终影响数据中心安全、稳定运行。
为实现数据中心管理目标,在应急场景下采取及时、有效的措施,需要有一个把若干个不同的管理体系,通过一定的方式方法,整合在一个架构下运行的一体化管理体系。
下面梳理数据中心体系在新冠肺炎防疫战中存在的典型问题及相关发展趋势。
一、存在问题
(一)负载突增成为数据中心资源整合瓶颈
随着疫情蔓延,全国学校决定延期开学。同时为了保障学生的学业,选择“停课不停学”,通过优质网上教学资源,开展远程教学。与此同时,多数企业已经开启远程办公模式,会议沟通、工作报表、人力管理、财务审计等工作大多迁移至云上,让员工在家就可以完成多数工作,甚至恢复业务生产。各种远程协调软件、云服务层出不穷,为远程办公带来了更多选择。诸如此类为疫情期间学习、工作提供便利的应用林林总总,从幕后走向台前,使得云数据中心的负载突增。为了保障服务能够正常运行,云数据中心的计算、存储、网络等资源往往需要进行扩容,这就带来了对底层基础设施的巨大需求。
但就目前看来,传统数据中心基础设施的扩容困难重重:
01 规划设计
数据中心初期设计时期考虑类似本次疫情的弹性突增需求,一方面将导致投资激增,另一方面各系统运行在低负载、低效率的状态,造成资源的严重浪费与高运营成本。以当前行业现状,在设计阶段留有足够的可扩用空间的可行性较低。
02 电气系统
从电气系统来看,UPS、供电线路、配电线路的整体可扩展性低。对于一般规模的数据中心机房来讲,机房供电线路的容量问题也是制约数据中心扩容的一项重要因素。并且由于供电线路的扩容改造工程比较复杂,而复杂的施工过程使其对人员技能的依赖非常明显,会增大误操作等带来的断电风险。虽然UPS的技术已日渐完善与成熟,模块化的UPS的扩容变得就像直流电源模块的扩容一样,推拉之间便可完成增加或更换模块,完成系统扩容或修复。但是与整机模式相比,模块化设计模式的单位容量制造成本较高,并且单模块的容量不宜做得很大,这使得模块化UPS成本陡增,导致设备整体投资过高。
03 暖通系统
暖通系统用来向机房提供恒温、恒湿、洁净的气流,扩容时会对空间、承重和供电容量造成压力。气流配送时回路中的风阻和风压的降落也不可忽略,以往的案例中经常出现扩容后无法克服回路风阻和提供足够的风量而使IT设备超温的情况。
04 综合布线
数据中心如不增加机房面积,扩容时会导致线缆数和线缆密度的增加。大量电缆的体积对连接设备的冷却效率、寿命,以及机架和数据中心基础设施的冷却要求产生重大影响。同时高密度的线缆会造成电磁干扰的增加,也会使暖通制冷设备的功耗大幅上升。
基于以上几点原因,基础设施扩容的难题对数据中心应对类似本次疫情的突发情况弹性扩容、快速部署都提出了新的挑战。
(二)针对突发公共事件的应急体系缺失、保障不足
应急处置是数据中心体系中的重要内容,各数据中心基于行业多年的最佳实践经验,对于数据中心发生的典型应急场景(失电、设备故障、漏水、火灾、非法入侵),基本都建立了明确的应急处理体系,保障事件发生后能做到有章可循、有据可依,及时调度资源应对处置。但是,目前有效的应急处理体系主要覆盖的是数据中心内部起源的事件事故,对于外部起源的突发公共事件,缺乏明确认知和应对经验。
类似于新冠肺炎疫情的场景,如公共卫生(非典、H1N1)、化工爆炸(天津滨海爆炸)、重大环境污染(化工厂泄露)、自然灾害、恐怖袭击以及其他的突发公共事件,这类事件针对数据中心的负面影响存在共性,如:
01 业务稳定受到影响
造成数据中心的保障措施和正常工作的开展受限,不能按照工作计划保障基础设施和IT设备的正常运维保障,进而影响业务的稳定性。
02 数据中心系统压力陡增
数字化时代,公共事件的发生往往同时带来C端和B端线上业务的大量增长。如本次疫情带来远程办公、视频会议、在线教育、在线娱乐和电商消费等的需求激增,相关信息处理、存储量急剧增长,对IT系统运行、计算和存储需求、网络带宽、基础设施容量等方面均带来不同压力。如疫情导致爱奇艺日均用户提升21%,发生宕机。
03 供应链短缺
导致外部厂商资源和社会资源受限、物资供应不足、相关需要外部资源支持的工作停滞,采购与招投标延期,使得数据中心重要节点保障面临挑战。
04 运维难度增加
项目运维人员劳动力不足,极端情况下发生“无人值守”情况,大部分现场例行运维工作无法实施,运维难度增加、运维效果下降。
05 威胁人员安全
公共事件下,现场团队人员人身安全和心理健康受到威胁。数据中心值守人员的心理干预非常重要,人在焦躁状态下,更容易出现误操作。
06 资源调度范围广、难度大
数据中心需要承担社会责任,在本就有限的人力资源上进行调度,执行针对公共事件的应对措施,保障在场人员安全。如本次疫情中,需要配合各级政府管控要求,协调数据中心相关方资源,建立防疫组织,梳理内外部资源调度、信息沟通机制。
(三)人员、流程、工具的平衡发展,是数据中心亟待解决的问题
传统数据中心竖井式部署模式,使得各个应用系统相互孤立,不能共享计算资源,而应用系统与运行平台、系统、物理资源间的紧耦合,使得物理资源在重新配置时将影响应用系统的运行与稳定。这带来了此次防疫战中新应用系统难以快速上线、资源利用率低、管理运维难度大等难题。
技术创新驱动了一系列领域的快速发展和进步,如智能终端、 VR、人工智能、可穿戴设备、物联网以及基因测序等。这些领域的快速发展不仅增加了数据中心的规模建设,而且随着计算能力以及网络流量的大幅增加,也越来越离不开数据中心的支撑。
数据中心面临着人才短缺的关键问题。麦肯锡分析研究,到2018年美国在“深度分析”方面将面临14万-19万的人才缺口;在“能够分析数据帮助决策”方面将面临150万的人才缺口。而我国应用需求同样旺盛,据相关测算,中国大数据市场将面临100万人左右的人才缺口。
数据中心是一个多专业,多层面的异构系统(电气系统、暖通管道系统、安防系统及动力环境监控系统),由此而来的是各个专业和岗位的维护人员就会采用离散的工具来支撑各自的维护工作。这种管理方式的优点是获取方式简单,成本相对低廉,但是却带来了多方面的问题。
首先,对数据中心运维管理团队而言,没有一个统一的视图获得所需要的信息,维护多个离散的工具也提高了管理和拥有成本。其次,不同系统之间的数据难以关联和共享,在进行跨系统数据建模和预测分析的时候尤其困难。最后,工具的不专业造成对数据中心数据的维护非常痛苦,需要花费大量的时间去更新数据,保持同步,甚至新老数据彼此发生冲突。
因此对于数据中心运维管理团队来说,就迫切需要有一个顶层管理体系及平台能够统一、同时管理到IT基础设施和场地基础设施,并且同时可以协助完成多个物理地点同时完成作业程序的管理及执行。
二、发展趋势
(一)资源整合方面
01 微型模块化数据中心
集IT机柜、制冷、不间断电源、消防、照明、监控、布线、安防等功能模块于一体,其构成单元均是符合业内通用规范的标准化产品,在数据中心施工现场,工人通过简单的拼装、连接,即可实现微模块的整体交付,就像搭起积木一样简单、便捷,能够大大缩短施工周期,降低施工难度,保证工程按时、准确、有序完成。适用于如疫情防控事件中短期、高效建设数据中心。
微模块模式与传统数据中心机房相比,优势明显:
1)能够有效节省面积,简化平面布局难度。以建设一个拥有144个6~8kW标准业务机柜的项目为例,传统机房布局需三个功能分区组成实现,共需730㎡,平均单机柜的占地面积需要5㎡。而微模块的布局只需要一个功能区,净面积需520㎡,平均单机柜的占地面积为3.6㎡。
2)便于拆卸和组装。微模块由工厂预制、具备工业化和标准化的特点,能够方便地拆卸、组装。工程施工时间短,施工现场便于管理。
3)提升制冷效率。冷池与行间制冷微模块由两列设备单元面对面组成,加上通道封闭组件、天窗、侧门等自身就实现了冷、热通道隔离,列间送风距离短、制冷系统控制策略精度高,也可以实现按需弹性制冷,同时这种方式支持高密度负荷。
4)自带不间断电源系统。微模块内部集成了UPS或者240V直流以及蓄电池不间断电源系统。不同的微模块可以由不同的电源系统供电,实现了同一房间内多种电源形式混用。
标准化的微模块为数据中心的智能管理和高效运营提供了便利,方便数据中心运维人员和管理者对数据中心的设备进行全生命周期的维护和管理,为远程管理提供了基础保障场景。
02 集装箱数据中心
借助于当前成熟的物流行业经验,以集装箱作为数据中心的载体,凭借业界成熟的海路、空路、铁路等运输工具,可以实现数据中心在全球任何地点之间的快速移动和部署,适用于时效性和移动性要求较高的行业和应用。设备到达用户现场后,仅需要接上水、电、网络等基本线路,即可正常工作并向外提供服务。相比传统机房,从土地审批、机房建设到设备采购、安装、部署等长达两三年的部署时间,集装箱数据中心可以大大缩短前期建设时间和成本投入,降低了对部署环境的要求,真正实现快速部署、快速应用。
03 一体化机柜
将数据中心基础设施产品进行深度整合,包含UPS、配电、制冷、机柜、消防等多个子系统,通过监控系统对全部系统实现统筹管理。可靠的UPS电源配电系统,配置一体化设计的柜式空调,无需安装室外机,冷凝水在机柜内自动蒸发,配有应急排水功能,可保证IT设备运行在稳定合理的温湿度环境中。同时一体化的封闭设计,比传统机房节约40%以上的占地面积,可安装于各种环境,无需专门投入机房建设与配套设施,现场安装时间只需要1天,在大规模部署时,可极大缩短建设周期。同时可以通过增加机柜数量与空调模块、UPS模块,实现灵活冗余扩容。
以上三种模式均适用于类似此次防疫战数据中心资源整合需求,也适用于处于快速成长期或者转型期的企业建设数据中心或数据中心扩容需求。
(二)突发公共事件应急体系方面
01 完善应急体系
本次疫情后,数据中心行业将针对突发公共事件的应急处理体系建设给予高度的重视,并针对性地制定应急预案、应急处理的资源管理方案、开展专项应急演练。应急预案要充分结合突发公共事件的特点,切实贴近实际场景,如无人值守、远程控制。从行业层面出发,识别出数据中心自身业务以外的风险并加以充分分析与论证,有针对性的补充现有应急管理体系是特殊时期后必须要开展的重要工作。
02 无人值守下的管控能力的建设
做好无人值守技术准备,关注值守人员心理健康。数据中心行业必须针对性考虑在运维人员中短期的情境下,怎样尽可能保障数据中心运维和管理工作正常进行,保障服务质量和业务安全稳定。
03 供应链完整有效
在应对突发公共事件中,保持供应链的正常有序,是数据中心应急处置得到有效落实的硬保障。数据中心的合作方及厂商,在突发事件下,依然应具备良好的人员支持和资源保障能力。充分发挥第三方机构的优势,建立满足供需双方的平台是后续值得思考的方向。
(三)数据中心体系各关键要素平衡发展成为趋势
对于应对突发公共事件,考验的不仅仅是人员、技术、管理单方面的处置能力,而是数据中心体系各关键要素(人员、流程、工具协作)综合处置能力。
数据中心服务商逐渐由资源型向服务型转变,数据中心服务商在传统最开始的时候,可能只提供空间、电力、网络这几个基础服务。在市场竞争下,他们的服务也逐渐扩展到包括管理、托管云服务等等。同时新建数据中心架构越来越灵活,因为客户需求越来越多样。同时数据中心管理越来越智能化,人工智能将实现无缝、整体性的监控管理。冷却散热、电源、计算、工作负载、存储和网络将动态化,以实现高效和高可用性。
01 体系规范
秉承“以客户为中心,以服务为导向”的理念,有效的识别与管理IT服务管理的关键过程,保证在满足客户与业务需求的同时,依照公认的 “P-D-C-A”方法论应用,充分发挥IT服务持续改进的能力,最终达到成本与收益的平衡。
02 组织建设
根据业务发展的要求规划组织架构演进路线,并根据业务发展,经营策略调整等对组织架构进行持续优化和完善。充分评估业务性质不同对数据中心的安全性、可用性及灵活性提出的不同的要求。
02 管理工具。
通过将基于云的分析应用于从数千个地点采集的传感器数据,设施设备和IT也将在一定程度上得到自我修复,从而有助于企业数据中心得以运用其来指导和制定有针对性的预测性和预防性维护计划。通过本次抗击疫情,可以更加明确数据中心尤其是基础设施部分智能化运维的重要性,从而促进数据中心智能化运维的快速布局。在现场工作人员不足的场景下,具备一个完整、精确、随时随地可登入、允许关键运行参数远程修正的数据中心监管控系统,可以有效跟踪监控数据中心环境变化,快速识别故障、降低风险。另外,数据中心的智能化产品的运用(如人工智能、物联网、智能巡检机器人的应用),能有效降低对人员的依赖,有效应对突发事件。
从这次抗击疫情下的数据中心运维管理工作看,未来数据中心运营应基于合作共赢,充分利用现有行业资源,建立体系、人员、知识为一体的共享资源平台,以保障特殊场景下数据中心的安全运行,保证公共卫生应急事件中社会各类应用的基础支撑稳定、可靠。
(文章转自《优秀数据中心》微信公众号 原标题:从新冠疫情防疫战看数据中心发展的挑战与机遇)