数量主导克服人为不当的三种办法,幸免数据宗旨停机须要采纳哪些点子【www.ca88.com】

www.ca88.com 3
www.ca88.com

数据中心运营计划的基本原则,数据中心运营计划

企业需要为数据中心成功的运营制定一个有效且适应性强的计划,需要采取具体的原则来指导IT人员全面考虑其运营目标以及如何实现这些目标。但很多企业的数据中心运营的规划与努力绝大多数是放在结构设计和开发方面,而在初始目标完成后,往往却忘记其最终目标是什么。

如今,人们越来越关注数据中心运行的重要性。为了提高数据中心运营规划水平,人们需要记住以下五个基本原则:

www.ca88.com 1

原则一:经验是最好的老师

就像生活中许多重要的事情一样,工作人员需要回想一下自己在职业生涯中犯了哪些运营错误,将如何避免,并让这些经验教训为今后的运营工作奠定基础。在某些情况下,这可能意味着企业的工作人员没有有效地运行设备,或者供应商的服务没有到企业的要求。无论如何,以往支持关键任务环境的经验使人们认识到,数据中心的卓越运营是一个全面和持续的过程,它反映在以下几方面:

  • 高效的设施设计。
  • 有效的移交后和正在进行的培训。
  • 采用合适的工具。

原则二:从运营人员的角度出发进行设计

有效的运营计划始于操作人员的头脑开始,或者更简单地说,”需要的成功是什么?”虽然这个问题似乎可以给出一个简单的答案,但是通常会发现这通常是一些配套查询答案的汇编。

显然,数据中心设施本身需要进行优化,以加强有效的维护和故障排除。换句话说,Tier
III级数据中心的并发可维护性必不可少,这是至关重要的。其程序本身应该简单明了,这是出于运营工作人员的角度出发,而不是工程师。日本质量管理专家推出的一个术语Poka
Yoke(防误防错)更好地描述了制定流程和程序的最终目标。这是一个在工作过程中采用自动作用、报警、提醒等手段防止运营人员疏忽或误操作而出现失误的方法,它意味着可以最大程度地减少人为错误。而对于这样的情况,当超过70%的中断仍然可以追溯到是运营人员失误的时候,那么在整个简化过程中还有很长的路要走。

行动的持续性应该被接受和适应。如果没有其他原因,平均数据中心每3-5年进行一次硬件更新,那么数据中心就是一个动态的环境,”一直这样做”并不能完全达到持续改进的目标。反馈环路证明了消除不必要步骤的有效机制,并确定了执行操作的更有效的方法。

原则三:灵活性和控制

灵活性和控制虽然看起来很宽泛,但这个概念真的很简单。特别是供应商的人员活动安排必须与企业工作节奏保持一致。运营要求必须围绕企业的具体需求来执行。同样的原则也适用于运营人员和安全的人员配备水平。

原则四:培训和认证

培养人才是一个持续改进的目标。不断提高专业知识水平不仅可以激励工作人员,还提高了工作人员的整体技能水平,确保运营的可靠性。

培养一个更加自信、更有能力、更有效的运营维护人员的方法需要一个基于角色的培训计划,其中包括:

  • 正式的课程。
  • 客观的衡量理解。
  • 不断更新和完善的持续流程。

这一方案的客观目标应该是建立在不断提高的认证水平的”主题专家”基础上:

  • 过程上的困难
  • 重要性
  • 性能

原则五:专注于消除错误

在以往,技术人员一手拿着手电筒,另一手拿着技术手册试图诊断和修复设备问题,这样的维护方法不利于快速有效的解决问题,但这代表了许多现有的数据中心标准的运营和维护模式。显然,在这种情况下,带来人为错误的机会是无数的。

有许多方法可以实现这个目标。一种方法是使用将所有的程序转换成数字清单这样的技术解决方案。通过平板电脑和手机进行访问,其中包括有关危险步骤的警报、访问视频、图像和文档以供现场参考,技术人员在执行操作每个步骤之后,并且在进行到下一步之前必须确认完成,这种操作大大减少了人为错误的可能性。

结语

对数据中心的运营进行规划是数据中心流程的一个关键且经常被忽视的因素。有效的业务流程和程序并不是严格遵守过去的运营模式的结果。要为数据中心的成功运营制定一个有效且适应性强的计划,需要采取具体的原则进行指导,需要IT部门全面考虑其运营目标,以及需要实现这些目标进行努力。

企业需要为数据中心成功的运营制定一个有效且适应性强的计划,需要采取具体的原则来…

如今,人为操作失误已经成为数据中心业务中断的一个主要问题,其严重性超出了许多人的想像。研究表明,人为错误占导致数据中心所有停机时间因素的60%至80%。而FORTRUST公司首席运营官Robert
McClary认为人为错误是导致数据中心意外中断的最主要的原因之一,并为此制定了专门减轻数据中心人为错误的策略。

日前,据调研机构对于数据中心的运营调查报告中表示,某些数据中心宕机事件本不应该发生。而其宕机的主要原因并不是由于恶劣天气、计划外维护、甚至电网故障等因素导致,相反,这是一些组织糟糕的计划和维护不当造成的。从航空公司到互联网巨头,这些主要的用户和企业都已经成为了停机中断事件的受害者,并且也深刻感受到这些可以预防的数据中心中断事件的影响。然而不幸的是,这种情况并不少见。

客户可以通过他们的数据中心和托管提供商寻找几种行为和策略,这些行为和策略可以表明提供商消除人为错误的承诺。

数据中心行业厂商通过对欧洲各国IT和数据中心管理人员的调查表明:27%的受访者表示在过去的三个月遭遇过长时间的中断,对组织业务产生了不利的影响。绝大多数受访者(82%)认为大多数关键业务流程依赖于IT服务,74%的受访者表示数据中心的健康状况直接影响到IT服务的质量。组织业务主要取决于IT服务和IT设备依赖于数据中心的功能。事实上,四分之一以上的数据中心遭受长时间的中断事件表明在行业层面上有些方法措施是错误的。

“过程控制和过程的全面记录至关重要,因为许多计划外停机事件是人为错误的结果。”McClary表示,”采用文档化、验证和可重复的过程为操作、服务交付和维护创建标准化的方法,同时减轻或消除与人为错误相关的风险。”

www.ca88.com 2

www.ca88.com 3

(1) 事先规划防止电力供应中断

(1)稳健的流程和文档

正如关键业务流程依赖IT服务一样,数据中心本身也必须提供弹性以保持业务运行。它是任何企业风险管理战略中的核心资产。

在FORTRUST公司发布的”数据中心最大可靠性操作指南”中,McClary建议不仅要确定具体的操作流程控制和程序,而且还要记录这一活动的强大策略。

工作人员的失误,备用发电机没有启动,惊慌失措的决定等这些错误都可以通过正确的流程和完善的电力系统设计来防止。然而,组织往往并没有遵循数据中心电力管理的黄金法则:行动获得结果和产生后果需要采取行动。

以这种方式,在数据中心内进行的每个操作过程都应该按照一个文档化,验证和经过良好实践的程序进行。

组织需要灾难恢复流程,并明确规定在重新启动数据中心时应采取哪些步骤。在数据中心停机中断的情况下,工作人员可能处于忙碌紧张状态,并面临恢复正常服务的压力。毕竟,工作人员的主要目标是尽可能快地恢复正常运营。因此,灾难恢复流程有助于避免延长停电时间。

虽然数据中心管理人员和工作人员需要花费一些时间和精力来创建、记录和维护这些程序,但这种方法带来了很大的好处。除了减轻人为错误之外,建立适当的程序库还可以鼓励一致性,支持持续的培训和学习,并帮助工作人员建立知识库。这一切都有助于确保问题始终不会出现。

(2) 提高工作人员的技能

(2)培训员工确保具有必要的技能

实际上,数据中心缺乏电源管理意识和理解是一个常见的问题。参与调查的数据中心专业人员中有三分之二的人表明对电力保障没有充分的信心。而在组织在能够掌握电源管理(从UPS维护到电池检查)之前,可能会有更多的与电源相关的停电事件发生。

对于数据中心工作人员来说,拥有保持数据中心正常运行所需的技能也是很重要的,并且在故障停机之前查明并处理任何问题都是很重要的。

但是,工作人员的技能对于提高电源可用性有着至关重要的作用。许多组织发现,无论是在能源效率设计、持续管理消费,或快速有效地处理与电力有关的故障,以避免和减轻停电方面,都很难招募和保留相关的专业人员或人才。

某些技能是关键的,而其他技能可以随着时间的推移而被传授。总的来说,数据中心工作人员应该了解电气和机械系统的基本知识,数据中心系统之间的相互关系,以及如何解决在这些类型的环境中可能出现的常见问题。此外,工作人员还应具有良好的解释能力和分析解决问题的能力。

(3) 更新升级基础设施

为了建立一致的基础知识,服务供应商也应该定期培训他们的员工。McClary指出,许多数据中心设施运营商只提供短暂的工作培训,但不一定会长期进行。培训必须持续开展,而每个员工都应该对自己的教育和能力负责。

除了提高技能和保障电力之外,数据中心基础设施本身经常需要更新升级,以满足企业对其效率,可靠性和灵活性的期望。在这个调查中,大约一半受访者表示,他们的核心IT基础架构需要加强,而近三分之二的受访者表示需要加强电力和冷却等方面的设施。

记录的流程和程序可为培训工作奠定基础。随着知识范围的不断变化和扩展,额外的培训可以确保对每个工作人员的角色,责任,以及所需技能有着敏锐的了解。

电源管理越来越成为一种软件定义的活动。鉴于工作人员的技能方面的差距,软件可以通过IT人员熟悉的仪表板来提供电源管理选项,以弥合IT部门和电源之间的鸿沟,从而更轻松地进行管理,并实现电力基础设施管理的自动化。采用这种技术可以减少或消除数据中心的停机时间。

(3)检查和演练

行业厂商已经向数据中心的虚拟化环境方向发展。IT和数据中心的专业人员如今已经非常熟悉使用虚拟化技术来维护硬件。那么为什么不使用同样的原则呢?所有的配电设计和相关的弹性软件工具必须与主要虚拟化供应商的产品相兼容,促进基础设施的未来发展。这种方法将使数据中心专业人员可以持续地维护系统,从而减少基础设施陈旧过时的风险。

数据中心员工花费时间去体验并检查数据中心设施中的所有关键系统至关重要。这些演练可以与培训工作结合起来,帮助工作人员认识到关键组成部分和任何可能出现的问题。

更好的准备和灾难恢复过程可能会阻止许多中断事件的发生。数据中心行业用户必须从这些事件中吸取教训,并采取必要的措施。因此,为了减少数据中心的中断事件,有效实施电源管理是一个必备措施。

数据中心管理人员应该通过他们的检查来制定一些文档化的程序来帮助指导这些工作。这包括在演练期间应该检查的项目的列表,工作人员应该记录的具体参数,以及在参数结果中应采取的步骤。

【编辑推荐】

McClary指出,虽然这些演练肯定需要一定的时间,但他们也可以帮助工作人员找出容易纠正的问题,防止以后出现更大的问题。

总体而言,防止人为错误的关键因素需要制定正确的战略和程序、培训工作人员,并花时间检查关键系统。这三种方法对于致力于数据中心高效稳定运营的工作人员来说至关重要。

【编辑推荐】

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图