数据宗旨宕机事故频发,数据宗旨怎么样压缩人为故障爆发率

www.ca88.com

数据中心如何减少人为故障发生率,数据中心故障

数据中心企业常常因为运维管理人员的操作不当问题而出现硬件和网络故障等问题。那么不管是在机房还是远程运维的工作人员选择何种日常事务处理方式来高效安全工作?

1. 明确稳健的流程和文档

在数据中心进行的操作过程都应该文档化,有着明确具体的验证和实践过得程序来进行。当然在开始的时候需要数据中心管理人员花费时间和精力来创建、记录与维护这些流程和程序,建立程序库并对工作员工进行培训和学习,可以有效避免因为操作不当引起的网络问题。

2. 上岗前进行专业知识培训

数据中心工作人员应该了解电气和机械系统的基本知识,数据中心系统之间的相互关系,以及如何解决在这些类型的环境中可能出现的常见问题。此外,工作人员还应具有良好的解释能力和分析解决问题的能力。

www.ca88.com 1

为了建立一致的基础知识,服务供应商也应该定期培训他们的员工。McClary指出,许多数据中心设施运营商只提供短暂的工作培训,但不一定会长期进行。培训必须持续开展,而每个员工都应该对自己的教育和能力负责。

记录的流程和程序可为培训工作奠定基础。随着知识范围的不断变化和扩展,额外的培训可以确保对每个工作人员的角色,责任,以及所需技能有着敏锐的了解。

3. 日常检查和演练

www.ca88.com,数据中心员工花费时间去体验并检查数据中心设施中的所有关键系统至关重要。这些演练可以与培训工作结合起来,帮助工作人员认识到关键组成部分和任何可能出现的问题。

数据中心管理人员应该通过他们的检查来制定一些文档化的程序来帮助指导这些工作。这包括在演练期间应该检查的项目的列表,工作人员应该记录的具体参数,以及在参数结果中应采取的步骤。

通过演练可以帮助工作人员找出容易纠正的问题,防止以后出现更大的问题。

数据中心在进行租机服务时,通过手动操作来机房布线、上架服务器、安装系统、分配IP、添加硬盘等,不可避免的出现一些误操作,用户在遇到这类问题时可以督促运维工作人员仔细,同时也可以适当的理解这种错误的出现。现在比较先进的镜像和备份功能,对于数据丢失问题有一定的解决作用。

总而言之,在完美的设备没有完美的管理措施是容易发生事故的。数据中心的所有管理人员只有熟悉自己是谁,自己要做什么才能真正确保数据中心安全的运转。

数据中心企业常常因为运维管理人员的操作不当问题而出现硬件和网络故障等问题。那么…

近日,某IDC服务商机房宕机直接导致某商业银行业务中断,据了解,此次宕机事故的原因是:机房内电力负载过高,造成配电柜开关跳闸,供电中断,空调停止运行,生产机房温度升高导致的设备宕机。

如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?

其实,类似的事件不是第一次发生了,之前中国信息通信研究院的专家就针对数据中心机房故障的原因作出过总结,专家们表示,数据中心机房故障多发的原因关键还是在运维管理上,所谓“三分技术,七分管理”,数据中心的故障大多来自人祸

1。以终为始

结合事件原因及之前案例,我们不难分析,导致此次事故的很大一部分原因也是“运维管理不到位”。

以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。

首先,在建设数据中心之前没有对负载做出充分的预估,导致电闸配置不能满足负载的需要;

2。以人为本

其次,在发生事故之后,应急处置能力不足,导致不能及时的解决突发事件;

70%的数据中心故障是由人为造成的。与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。

另外,机房制冷方面仅依赖空调制冷,没有设置高温应急措施,导致机房持续高温。

3。培训与学习

频繁的数据中心故障和宕机事故表明,某些数据中心在一味满足客户个性化需求的同时,忽略了自身运维管理能力的提升,导致数据中心可靠性降低,从而发生此类事件。

学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。同时,每一个数据中心的配置和特定的操作流程都不完全相同。因此,培训与学习应该成为运维团队管理的一个重要组成部门。

在运维过程中,数据中心其实面临着诸多的挑战:

4。建立管理体系

比如数据中心的运营费用,这就要求在建立数据中心之前,进行预算和规划;又比如能源成本上升,这可以通过使用新技术缓解,例如虚拟化和云主机托管,可以大大降低能源成本;再比如维护和冷却要求,数据中心设施和组件需要在适合的温度下全天不间断的工作,这需要完善的冷却系统,以保持所需的温度。

数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。在整个管理体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。

除此以外,数据中心还面临着沟通融合、基础设施要求、缺乏资源、服务器效率、数据中心安全、网络阻塞等挑战。但是,数据中心最不愿意见到的事情莫过于断电,这将会给运维人员带来很多的麻烦。近来,不少公司因为数据中心的电力中断而备受困扰,比如美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失,又比如美国“超级碗”赛场断电,耽误赛事日程。

5。规范操作流程

那么,是什么原因导致断电呢?操作员的误操作、停电,也有可能是服务器负载过重,从而导致系统崩溃。

任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。完全基于个人经验和判断的操作,往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作,必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。

虽然数据中心断电是非常严重的问题,但是我们还是希望有相关的解决方案。在这里,我们需要确定几个问题。

6。动态管控

跟随数据中心的变化,电力系统进行升级

除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。近几年,IT负载的动态性表现得越来越明显。一方面,IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。

可以说数据中心的不同阶段,对电力需求也在不停的变化,比如增加服务器或者交换机都有可能对电力产生巨大的需求,所以及时掌握数据中心在这一时间段对电力的需求,变得十分重要。

7。持续改善

此外,还需要对数据中心的供电进行合理的评估,以免数据中心超载,供电不足造成停电的状况。

大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。

知道所有互连设备和系统的一切情况

8、用运维管理工具

对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。

实践已经证明,用一个优秀的运维管理系统可以大幅度的提升运维管理效率。可以理顺运维流程,并对每一个运维事件进行时间限制。督促运维工程师解决故障。另外,运维经理可以从PC或者移动端随时关注运维事件的进程。运维管理工具的知识库、配置管理、拓扑图、监控管理等功能,也是提升运维效率的有效功能。

可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以最高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。

确保电源系统没有受到攻击或威胁

数据中心是通过网络进行连接,当然除了基架中包含的终端和访问点之外,很多渠道可能会成为破坏数据中心的途径,所以保护这些渠道免受破坏,成为数据中心建设需要考虑的问题。

在这里,网络攻击成为一种可能性,很多黑客可能不直接破坏供电系统,而是通过网络进入到数据中心,以达到破坏数据中心供电的目的。此外,我们不应该只防止通过网络手段对数据中心进行破坏的黑客,还应该防止内部人员的破坏,有些工作人员因为自身经验不足,一个小小的错误,有可能导致数据中心供电的中断。

所以,为了防止通过以上手段进行破坏的行为,建立运维文档和流程控制变得十分重要。在这里,采用更多的硬件不是防止灾难性停电的最佳选择,不妨采用软件层面的管理,来的更加稳妥一些。

不妨多模拟故障安全测试,做好完整的灾难恢复计划

数据中心在运营过程中,难免会出一些故障,所谓有备而无患,在真正出bug的状况下,之前遇到过或者曾经模拟了出错的场景,才更有经验去应对故障。在这里,我们建议在不影响业务环境的情况下对数据中心进行断电测试,使用虚拟的开关设备,将允许数据中心运营商可以应对最坏的情况,并对其进行恢复。

数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。

数据中心建设应该实时监控操作

对数据中心进行实时监控操作,是以防万一的做法,所以数据中心运营商必须知道设备都被放在哪里,以及使用了多少电能。虽然对于不断增加基础架构的数据中心来说,这很困难,也有可能对电池容量和电源分配产生巨大的影响,但是注意所有移动部件的唯一方法就是单一视图,这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。

写在最后

数据中心一旦断电,造成的经济损失不可估量,不妨从上述的这些方法做起,对数据中心每个环节进行防护,这样才能更好地对数据中心进行运维。

ServiceHot ITSOM 平台

持续免费试用中>>>

www.itsmcn.com

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图