根据ITIL的IT运维管理种类概述,网络时代的网络自动化运转

www.ca88.com

互联网上有两大主要元素”内容和眼球”,”内容”是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,”眼球”则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的”眼球”在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长,运维部门也显得愈发重要。他们经过这些年的积累,逐步形成了高效的运维体系。本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。

基于www.ca88.com,ITILIT运维管理系统可以逐步建立并完善、达到以下目标:

运维管理兜兜转转十几余载,大家的运维管理再也不是小米加步枪、人工费力拉线扛服务器的传统时代,如你所知,这些年大家张口闭口谈的都是运维自动化如何如何。一千个读者就有一千个哈姆雷特,一千个运维就有一千种运维自动化想法或构建思路,小生不才,今日斗胆来聊聊我眼中“运维自动化”的那些事儿!如有不妥,还请大家给出相应的意见……

一、运维的三个阶段

标准化——通过ITIL的流程框架,构建最佳实践经验的IT运维管理流程。

运维自动化到底干个啥?

● 第一个阶段:人人皆运维

流程化——把大部分的IT运维管理工作流程化,确保这些工作都可重复,确保这些工作都能有质量完成。

据度娘之意,IT运维自动化是将日常IT运维中大量的重复性工作,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度等,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现”零延时”的IT运维。其本质是运维方式的转变,由手动逐渐演变为自动化操作!那运维自动化应该包含哪几个层面?鉴于IT运维五个维度”效率、稳定、安全、体验、成本”范畴,运维自动化统筹起来就有监控自动化、服务流程自动化、运维操作自动化……

在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。研发人员拥有服务器权限,自己维护和管理线上代码及业务。

自动化——替企业有效无误地完成一些日常工作,比如备份,杀毒等。

IT监控自动化

● 第二个阶段:纵向自动化

基于ITIL的IT运维管理系统为用户解决了哪些问题:

监控自动化是运维自动化的起点之一,利用监控自动化平台对各类IT资源(包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用、操作系统、虚拟化等)进行实时监控,再做故障根源告警归并处理,以解决特殊情况下告警泛滥的问题,例如机房断网造成的批量服务器报警。当然,监控自动化的范畴很广,除了监控告警响应,系统各个服务如Nginx、Java、PHP、DB或网络等的性能优化、资产关系的梳理以及业务系统的实时健康评估监测也是应该包含在里面。

随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演”救火队员”,收告警,有运维规范,但运维主要还是为研发提供后置服务。

运行维护管理—重要性

服务流程自动化

这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。

事前管理——通过监控系统,及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然,事前管理的目的。

监控自动化发现了问题就应该接入相应的流程进行处理,这时候故障事件自动触发问题处理跟踪流程,并在自动化工单式流程的指引下通知到相关责任人,并利用知识库自动化完成整个故障处理协调过程。

具体表现为:各产品线有自己编写的脚本,利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。

迅即的故障报警—全天候自动检测与及时报警,通过多种告警方式实现网络的“全天候无人值守”,大大降低管理人员的工作负担。例:通过短消息告警和远程客户端管理的结合,用户可以在任何地方轻松的管理自己的网络,解决问题。

运维操作自动化

● 第三阶段:一切皆自动

ITIL的标榜—IT服务最佳实践

这个层面的自动化运维工具,主要是把运维一系列的手工执行繁琐的工作,按照日常正确的维护流程分步编写成脚本,然后由自动化运维工具按流程编排成作业自动化执行。简单来说,就是把多个Shell、python、PowerShell、Bat等脚本串在一起执行实现某个特定的操作目的,以此来替代一些日常需要批量或者大量重复性的操作,比如变更、部署、配置下发等操作!

在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。

提供灵活的、流程化的IT服务管理,帮助企业完成流程定义、流程执行、流程监控以及流程的优化。将日常操作全部流程化,并通过自动化工具对流程执行情况进行及时追踪。

以前,传统的运维方式是由监控系统监控,根据阈值设置产生告警,走工单方式人工处理。现在,使用自动化运维平台,可以让产生的告警和知识关联,自动化处理故障。也就是说,IT运维自动化工具是监控自动化和流程自动化工具的完善和补充,三者结合相得益彰!

与此同时,运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。

业务流程化、流程自动化、服务规范化

总体来说,运维自动化不是写写脚本,再用开源软件东拼西凑就完了,这只能叫辅助运维,不叫自动化。据我所知,真正的自动化应该是让运维平台工具帮你’监测——发现——处理——解决问题”,集”自我修复、自我维护”为一体,各模块之间尽量低耦合、可扩展、可插拔,最终实现运维智能化;也应该是真正能帮企业降低IT运成本,使运维管理可视化、可测量、可对比,进而真正将运维人员从繁琐的、例行、容易发生人为事故的工作中脱离出来,做更有价值的运维工作。

www.ca88.com 1

通过流程管理来简化IT部门繁琐的业务,把维护人员从救火队员中解救出来,规范运营管理。本文叙述的IT运维管理系统以ITIL的流程框架,缔造一个流程化,自动化和规范化的IT运维管理系统。

运维自动化怎么做?

图1.大型互联网公司IT基础设施情况概览

www.ca88.com 2

很多运维人员在筹建IT运维自动化架构体系时,妄图一口吃个大胖子,谋求一个完整的系统来自动化完成所有的运维工作,殊不知自动化是一个循序渐进持续发展的过程。我觉得在思考如何做运维自动化之前应该认识到几个根本的原则问题:

二、BAT(百度、阿里、腾讯)运维系统的分析

以CMDB为运维核心,自动发现资源配置项

标准必备

国内的互联网公司百度、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。

CMDB有两部分重要内容,一是CI,二是CI之间的关系,这两部分构成了CMDB比较核心的内容,在CMDB初始化方面,很多产品只是提供了手工输入的方式对CI
的初始化,用户需要面对大量的需要手工输入的信息,造成系统使用前的高门槛,而摩卡软件在这里提供了两种方式快速进行CMDB的初始化,第一种是自动发现CI,第二种是从Mocha
BSM系统中导入,大大简化了用户管理员的工作,快速搭建ITIL最佳实践平台。

正所谓无规矩不成方圆,实施自动化前提需要标准规范与流程化。这包括资源标准化、OS的基础配置标准化、基础软件(如Tomcat、JVM)配置标准化、应用配置标准化、流程规范标准化……比如,如Ngnix/JAVA/PHP/MySQL这些常见服务的应用初始化流程、部署更新流程等,可以提前固化下来,做到了标准化,消除了各种差异,才能为后续的自动化开发铺平前进的道路。

1.腾讯运维:基于ITIL的运维服务管理

www.ca88.com 3

与此同时,随着ISO20000、ITIL
v3.0的持续推广,它们已成为实际的某种标准,尤其是ISO20000的认证要求,也是企业的普遍需求,而ITIL
v3.0包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,也为企业的服务流程管理自动化提供了更多思路!

预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作。在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。

多种渠道新建故障处理请求

实用为先

www.ca88.com 4

为了提交企业各部门所遇到的IT故障处理请求,用户可以通过自助服务台、电话通知服务台、监控系统自动触发等方式发起故障处理请求。通过自助服务台用户可快速新建故障处理请求,并随时追踪该故障请求的状态,如该故障请求是否已经在处理当中,或者已经转为变更流程,需要继续通过变更管理才能解决故障等。

大家常说,“公司的系统架构不是设计,而是演变而来的。”一般而言,企业要做运维自动化都不是一蹴而就,也不太可能一次性建好,都是分阶段来做以解决自身实际问题:首先应该明确自身处于“手动支撑
——
线上标准规范化——运维工具化——平台自动化”的哪个阶段,然后先找准现阶段的痛点,对症下药。

图2.腾讯基于ITIL的运维服务管理

www.ca88.com 5

说到实用,不得不提到——CMDB。关于“CMDB是不是运维自动化的基石“,不少运维还在疑惑,到底要不要建立CMDB呢?
CMDB即配置管理数据库,一般用于统一管理IT数据、服务器数据资产等。它不仅是硬件和资源的信息记录,更重要是要建立起应用与资源之间的对应关系,并以此为基础,配套着应用配置管理、监控、发布、稳定性等系统的建设,才能最终形成体系化的运维平台,否则只是碎片化的运维模式。当然,这里只是让CMDB只提供最基础的资源信息和应用资源的关联关系,不期望把基础的CMDB做得过重,不然后期会不堪重负!

2.阿里运维系统:基于CMDB的基础设施管理+逻辑分层建模

知识库与 FAQ
的紧密结合,IT运维管理经验的积累,IT运维管理经验的积累转入到知识库中

安全为重

CMDB(Configuration Management Database)
配置管理数据库(以下简称:CMDB),将IT基础架构的所有组件存储为配置项,维护每个配置项的详细数据,维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库,CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。

www.ca88.com 6

运维安全是企业安全保障的基石,不同于Web安全、移动安全、业务安全,随着自动化运维管理体系的不断融合与统一,运维安全环节任何一个代码、一次部署出现问题往往会比较严重,很多时候说”牵一发而动全身“都不为过。此外,运维自动化平台关联的资源越来越多且复杂,甚至都涉及到了root权限,为广大黑客朋友创造更多空间,所以加强自身安全防御势在必行。最基本的是加强权限和基线控制,是否针对运维自动化平台的服务器账号做了特殊限制?是否做了超限检查?是否做了关键操作的双保险?是否做了作业执行脚本、数据传输的加密控制?通通都得考虑,而堡垒机、安全审计、防火墙控制等措施更是不在话下了。

3.百度自动化运维:部署+监控+业务系统+关联关系

符合ITIL框架,规范IT部门管理

运维自动化安全建设牵扯面广,这里就不一一赘述了。还得提醒一点,在运维自动化操作层面,如何缓解自动化操作条件的变化而引发的巨大运维压力,也应该认真考虑。

百度主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。万台并不等于”百台*100″;机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。

用户实施ITIL的一个重要目的就是要规范IT
部门的管理,让日常运维更加规范化、流程化、自动化,在产品中是通过自动化和流程化来体现管理的规范化的。

www.ca88.com 7

www.ca88.com 8

图3.百度自动化运维技术框架

客户化的IT运维管理流程,满足不同业务需求

百度的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重”关联关系”的联动。所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。

流程必须客户化,产品如何做到呢?两个层面,第一个层面就是可以方便的在用户所需要的范围内进行不同版本流程的切换,第二个层面就是用户可以方便的通过可视化工具对流程进行定制,不需要二次开发的代码,只需要简单的鼠标拖动即可完成流程自定义。

关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。在这样的一套系统中,自动化监控系统非常重要。百度的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。

www.ca88.com 9

www.ca88.com 10

可定制的KPI报表,度量流程执行绩效

图4.百度自动化技术监控框架

系统中提供了很多和报表,来度量各个流程执行的绩效,报表是用来做统计用的,一般用来做各类别数量的统计或者是变化趋势的统计,KPI
是经过计算的,衡量各个模块执行绩效的,在首页上点击后下面列出的黄色边框的是报表,而绿色边框的是KPI。

www.ca88.com 11

基于ITIL的IT运维管理系统的相关描述就为大家介绍完了,希望为欲了解此方面信息的读者提供了参考信息。

编辑推荐】

ITIL 的 IT运维管理
系统可以逐步建立并完善、达到以下目标:
标准化通过ITIL的流程框架,构建最佳实践经验的IT运维管理流程。
流程…

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图