隶属于德国邮政集团旗下最大的国际快递公司DHL,不只是目前世界最大的航空快递货运公司之一,更运用IT在全球各地采用自建数据中心的方式,随时掌控全球各据点货物派送的最新进度。
而去年,DHL在捷克共和国新打造完成的布拉格数据中心,后来也取得UptimeInstitute在设计(Design)和设施(Facility)的Tier3等级认证。近日负责DHLITServices数据中心维运负责人CtiborLesa来台时也分享了他在担任DHL数据中心长达10年间的维运和管理经验。
CtiborLesa目前主要负责统筹管理了DHL在马来西亚、美国与捷克共和国的数据中心规划和维运。他曾负责完成DHL数据中心的线上升级专案,来通过Tier3等级设施的验证,并也为数据中心改良机械系统,以提高数据中心的可靠度与耐用度。
CtiborLesa拥有机械工程硕士,在加入DHL以前,曾在机电工程公司负责管理整体机房冷却系统的设计与维护,而在进入DHL后,为改善数据中心可靠度,并减少人为错误的发生,也将线上负载测试与故障模拟导入数据中心内部。
CtiborLesa表示,这些线上负载测试与故障模拟,能提升数据中心设施的可靠度(Reliability)与可预测性(Predictability),例如,通过线上测试电力供给设备的运作情况,以及模拟各种可能的电力系统故障状况,来预先演练故障排除,甚至能进一步做到诊断设备的耗损程度,来提早进场维护。
不过他也强调,在进行这些测试过程中,IT管理人员得投入更多的心力专注在测试上,并也得确保不会对IT维运带来影响。
除了线上负载测试与故障模拟外,CtiborLesa说,提高数据中心可靠度的第一步是建立起定期维护(RegularMaintenance)机制,不论是电力设备、伺服器或不断电系统等都需要定期的保养维护,才能够确保这些设备能维持正常的运作。
他建议,企业应花上更多的投资在设备维护上,像是采购相关管理软件,来建立系统化的设备保养排程,因为「跟数据中心设备故障导致庞大金额损失相比,企业花在设备维护的每一块钱带来收益更多达1万倍。」他说。
此外,CtiborLesa指出,这些经由线上负载和模拟测试的结果,也能够通过各种数据搜集系统,如环境监控系统、监控管理系统及数据监控系统等,来取得庞大机台设备数据,并能通过分析数据,来协助数据中心改善各种问题。例如,数据中心意外事件中,3成是由不断电系统和电池故障所引起的事故,而通过分析这些测试和模拟结果的数据,有助于改善不断电系统的设计。
CtiborLesa从DHL数据中心多年的经验也观察到,平均每5起数据中心设备的故障,几乎就有1起是来自于人为疏失,最严重可能导致数据中心维运停摆,他也强调,人为疏失并非无法避免,而是可以用管理减少出错的机会。以下为进一步专访他管理DHL三大洲数据中心的经验:
Q:是否能谈谈DHL在全球数据中心IT建置的情形?
A:我们最近完成了在美国宾州梅卡尼克斯堡(Mechanicsburg)一座数据中心的整修专案,包括了在数据中心所有机电设备运转期间,测试线上关键IT负载实际运作情况。
这项专案包含了全面重新设计电力供应基础设施与结构,包括了采购新的备用柴油发电机组、ATS(自动切换开关)、UPS不断电系统模组、配电盘(DistributionSwitchboard)、机房空调(ComputerRoomAirConditioning,CRAC)组件,以及监控系统。这个专案是分阶段来执行,才能够如期按预先规划的试运行(Commissioning)时间表来执行,以降低新旧基础设施交替期间的风险,而不会对于IT营运造成重要影响。
Q:DHL为什么要自建数据中心?
A:DHL在IT服务上的策略是倾向自己来管理区域性关键数据中心设施,只有在需要快速呈现IT服务或是一个小规模数据中心空间时,才会向主机代管业者租用数据中心。采取租用方式可以缩短服务推出时间。我们也尝试着均衡发展自建数据中心营运的优势。
Q:你在管理DHL数据中心时遇到的最大挑战?
A:IT基础设施内充满着庞大网络、储存、备份、伺服器设备和数据中心设备的基础设施。
而过去的管理挑战在于IT部门和数据中心设施部门协同合作,来了解数据中心设施的所需容量(CapacityRequirement),以符合新专案的需求。而当数据中心基础设施管理(DataCenterInfrastructureManagement,DCIM)工具出现后,也让任一个设计部门在数据中心设备的管理,有了显著的改善。
另一个热门谈论的话题依然是数据中心基础设施的可靠度(Reliability),而要持续提升数据中心的可靠度,采用作法首先得有合适的数据中心试运行流程、定期的维护机制、线上负载测试和结果分析模拟,才能够持续地来改善数据中心的可靠度。
现在最大的挑战则是专业人才(Staffing)的不足。这些具有IT基础设施专业人才的流失,已经是数据中心管理者不得不面对的挑战,而是否具备有市场所需的IT基础设施专业技能,也主导了优秀人才的市场竞争力。
除了专业技能外,员工向心力、职涯发展和动机也十分重要。而能不能取得数据中心基础设施各细节的主导权,也影响数据中心能不能持续保有一群训练有素专家的关键。
Q:如何减少数据中心的人为出错?
A:我深信,可以通过管理方式,来大幅降低因人为疏失造成数据中心非计划停摆的比例。借由定期在真实设备故障模拟下所做的一种可控制的线上负载测试,可以建立起数据中心维运团队的信心,在事故判断上有更多把握。
维运团队越有信心,在面对意外发生时也就越能提高数据中心的可靠度。意外事故在所难免,但是比起加强设备汰换,更重要的是能正确反映出事故本身,以及提供顾客透明的沟通管理。
Q:近2年数据中心管理方式和过去有何不同?
A这2年许多数据中心设施配备有更多监测设备,而在市场上推出的新产品都必须具备远端管理的能力,再者,这些监测设备操作也越来越友善和直觉。但要将这些监控应用产生的数据拿来评估,仍需要更多努力。
但不采取行动的数据将毫无意义(TheDataWithoutActionAreUseless)。
我曾看过数据中心配备了强大DCIM工具,但是将取得数据拿来使用的情况却非常少;而有时候,这些监测设备提供数据过多,已超过数据中心维运人员可以有效管理和执行的范围。
Q:DHL怎么分析这类数据中心的监测数据?
A:测试结果分析(TestResultAnalysis)非常重要,并且也是决定数据中心基础设施能不能更耐用、可靠,以及可预测的关键。但是,却只有很少数据中心设施有采用。
DHL在IT服务上的策略上,会依数据中心设施的不同而采用不一样监控应用,这些搜集而来的数据基本来源,有来自环境监控系统(BuildingManagementSystems,BMS)或其他能感测更多数据的系统,如DCIM系统。
这个测试结果分析是将可预期的自动化操作(做为单一设备分配路径故障模拟(DistributionPathFailureSimulation)的一种反应)与在数据中心基础设施的时间记录(RecordsofTime)、机电设备规模(Magnitude)大小及序列(Sequence)数据的实际反应进行比较,而得出可用的分析结果。
最新论文