有关今世数据基本的体积管理,数据主导新情势

图片 5
www.ca88.com

健康与风险:数据中心容量管理的新模式,数据中心新模式

有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往往都非常的复杂。而且,在当今加速发展的商业世界中,这种管理往往无法有效实施。优先级的改变、日益增加的复杂性和可扩展的云基础架构使得传统的容量管理模式已经不太奏效。在新技术的支持下,由创新的IT领导者推动,新的容量能力管理模式正在出现。这种新的模式将IT资源使用视为对业务有意义的,使用自动化和分析来管理复杂性,并减少人工操作。

在本文中,我们将与广大读者诸君共同讨论如何将容量管理中所涉及到的复杂监控、分析和预测缩减为一项健康的服务(当前绩效)指标,以及服务风险(未来绩效)的一个指标,使所有利益相关方更易于管理和更具可视化。

容量管理的战略优势

图片 1

容量管理平衡成本和风险

在简化的意义上,IT容量管理是平衡业务服务的成本和性能的基础,其中基础设施的分配和配置是支点。如果您企业的基础设施配置不当或不足以支持业务需求,可能会发生长时间的响应时间问题和中断,从而使业务损失高达上百万。

避免这种情况的一种典型方法是过度配置基础设施,即估计所需要的容量,并使之翻一番。据估计,多达50%的云基础设施是未使用的,这种现象在物理存储中甚至更多。过度配置浪费了大量的硬件,软件许可和管理成本。而诀窍就在于合理化您企业的基础设施规模,以满足当前的需求,并确切的知道何时何地需要增加多少额外的容量。

为了有效优化业务服务,容量管理过程由四个主要步骤组成:

使IT变得如此具有挑战性的是,鉴于动态发展的技术,不断变化的业务需求和需求的增长都增加了复杂性,使得IT环境不断变化。时间一直是性能问题的本质,但是IT人员分散在各种任务和项目中,减少了确保服务交付的时间。最后,容量管理专长越来越少。根据一家业界领先的分析公司Research
In
Action预测,到2020年,容量和性能管理的技能缺乏将成为75%的企业增长的主要制约因素或风险。

或许正是由于这些挑战的存在,使得许多技术领导者认为,容量管理是一大竞争优势,在未来几年将会变得更加如此。据Research
In
Action预测,到2020年,35%的企业将使用容量管理工具来获得竞争优势(而今天的比例则为20%)。

有效的容量管理所带来的竞争优势:

借助自动化管理复杂性

近年来,大部分已经成功的部署了容量管理的IT企业均使用了分析和自动化。这种方法的优点是速度和准确性,即使在非常复杂的环境中,但需要花费相当的时间,并采用恰当的工具和流程来有效实施。

要了解这种方法,如下,让我们来探讨前面所述的每个核心流程:

数据采集

性能数据必须以具备足够的细粒度级别进行收集,以满足业务交易的需求。例如,实时交易和在线购物需要比批量处理更多的细粒度。请记住,您企业所使用的收集工具必须以自动化和高度可扩展的方式提供详细,及时的数据,以确保项目的成功。

数据分析

传统上,这种分析是由容量管理专家通过简单的工具(如电子表格)“手动”检查数据;或通过构建和维护定制的工具和查询来执行的。这种类型的手动分析需要花费大量的时间和专业知识,并用到在许多企业中已经薄弱的资源。自动化是一大解决对策,尽管在这方面存在较少的可行解决方案。历史上,许多这些“自动化”解决方案仍然需要大量的时间来设置,并在提供有用的信息方面仍然受限。然而,技术现在可以用更实际和更有效的方式解决分析问题。

预测

为了准确预测性能,我们需要认识到,计算机系统的行为不是线性的。如果其是线性的,那么预测就像线性趋势一样简单。现实是排队发生。排队是指当一款CPU、控制器或其他设备有超出其所能够执行处理的工作进入时的情况。然后,服务不得不等待排队,就像排队等待在商店款台结帐一样。当只有很短的队伍或没有排队时,响应时间与所添加的工作成比例。您企业再添加一些工作,一些应用程序或基础架构,就有了更多的工作亟待处理。排队由此开始,突然间的延迟是巨大的。这就是所谓的曲线中可怕的拐点,之后的响应时间呈指数增长——等待时间比工作时间还要长,响应受到很大的影响。

图片 2

经常,IT假设延迟将始终是线性的,而他们也正在疯狂地争取解决这一问题。

为了避免拐点,许多IT机构遵循始终不让系统所处理的任务太繁忙的策略,这意味着过度配置——保险但却造成了浪费。他们为避免拐点付出了太多代价。

你企业必须清楚的知道拐点将在何处出现,以便在没有过度配置的情况下避免它,这需要了解IT组件如何交互来执行工作。使用各种技术来预测性能的不同程度的精度,从Excel电子表格到线性趋势,到模拟建模,再到分析建模。

然而,直到最近,这些解决方案都需要用到大量的专业知识,专长和时间。庆幸的是,现在可以非常及时地自动获得预测。

提供可执行的信息

有效执行上述三个领域的结果应是生成可执行的信息和具备可视化的报告。由于IT决策通常对整个业务有影响,因此这些信息也必须以对非IT利益相关者有意义的方式呈现。例如,根据业务指标(如销售,SLA或正常运行时间)而不是根据诸如内存或I
/O等IT指标。IT部门花费数百或数千小时为各利益相关者创建报告并不常见。尽可能的情况下,报告任务也应自动化,使IT人员能够专注于主动解决问题和创新。

案例:JN数据公司如何管理复杂性

实时识别和理解企业中值得关注的内容帮助JN数据公司的容量经理Henrik
Tonnisen向主要客户(其中包括丹麦第三大银行Jyske
Bank和丹麦最大的抵押贷款公司Nykredit)交付提供了市场领先的服务,资源效率和透明度。

为此,Tonnisen将来自数万台服务器的技术数据融合到动态的自助服务报告中,以满足每个业务利益相关者的需求,将讨论从复杂的技术指标转变为可操作的业务信息。

Tonnisen表示,他们的团队在宣布推出新的自助报告仪表板后,获得了利益相关者的一致好评。

一种新的模式

自动化和分析已被证明对现代容量管理所带来的挑战是有效的。然而,直到最近,这些解决方案也仍然需要大量的时间和专门知识来实现有效的实施。

当前,一种新的模式正席卷了整个行业。这种新的模式使用自动健康和风险评分来识别当前和未来的性能,以及未来的时间框架和严重程度问题。这是游戏规则的一个改变:节省了时间,需要的专业知识更少,使所有IT10企业的容量管理更简单,更易于访问。

为了方便计算每项服务的简单,易于理解的健康和风险分数,在幕后运行的是复杂的算法。监控列表可以被定义为将注意力集中在您所使用的服务上,负责并且容易地确定需要采取的行动,无论是解决当前问题还是扩展容量,以避免未来的问题。您企业不再需要花费数不清的时间在数据上了。自动算法将为您执行。

为什么要实行健康和风险评分?

健康和风险分数涉及容量管理过程中的两大主要功能领域:

健康和风险分数如何计算?健康分数

通过深入了解包含服务的每个系统来计算健康评分。分析排队网络模型用于计算实际的CPU和I
/
O性能,并与每个系统的理论最佳性能相比较。内存将根据当前的利用率进行评估,并通过查找与内存管理的正常活动级别的任何偏差来进行评估。通过检查当前可用容量和历史行为模式来评估磁盘空间使用情况。分析结果被整合并归一化,以创建一个易于解释的健康评分,范围从0到100,0-44表示健康状况不佳,45-54表示需要警告,55-100表示??健康状况良好。

风险评分

风险评分是通过运行容量规划算法来确定的,进而预测将来服务将如何运行。容量规划算法预测服务增长率对构成服务的系统的影响。分析排队网络模型用于计算未来的CPU和磁盘I
/
O性能,并与系统的理论最优性能进行比较。这些模型产生了一系列预测,这些预测说明了我们之前讨论的计算系统中固有的非线性行为。

通过评估活动模式并在预测期结束时预测磁盘空间的使用情况。基于这些计算,生成风险分数来表示预测风险的严重性。风险分数归一化为0至100的范围,以代表风险量,0-44表示低风险,45-54表示警告,55-100表示??高风险。除了风险评分,还将预计发生性能不佳或停电情况的日期。通过在预测结果中查找一次性事件和周期性行为来预测风险何时发生,并计算发生风险的天数。

简单性是王道

鉴于所有的工作自动发生在幕后,容量管理要简单得多,所有的IT企业都更容易访问。企业不再需要雇佣大量数据科学家,工作人员的工作时间得以节省下来,预测不再需要内行专家。
IT人员和服务经理可以查看健康和风险的单一指标,其次知道应该在哪里集中注意力。

准确性事项

算法和计算的准确性非常重要。那么他们有多准确呢?

所有这些方法都适应工作负载,配置和其他环境变化。使用这些方法与复杂的算法,最终的结果是行业中最准确的健康和风险计算,准确率通常为95%.

评估您企业的选项

目前市场上有各种容量管理解决方案,可满足不同的企业环境和不同需求。而为了有效地评估它们,比较功能和方法是有帮助的,并且有助于理解它们将如何影响您企业的容量管理成果。

为了确定IT和业务服务的健康状况,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

  • 标准阈值比较
  • 增强阈值比较
  • 事件检测
  • 从正常运行到变化的比较
  • 分配比较
  • 排队理论

为了确定IT和业务服务的风险,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

  • 线性趋势
  • 增强趋势
  • 事件预测
  • 分配预测
  • 排队理论

诸如标准阈值比较和事件检测等选项更容易设置,但提供的精度要低得多。分配比较和预测适用于虚拟环境,但是缺乏驱动资源效率的能力,因为它们需要考虑分配的内容与使用的内容。排队理论需要智能配置和细粒度数据,但在确定服务健康和风险方面提供了更为准确的结果。

在选择企业容量管理解决方案时,应考虑以下因素:

  • 环境中的物理和虚拟服务器的数量IT企业所管理的服务的数量
  • 未来3年预计的基建投资情况
  • 目前基础设施过剩的程度
  • 关键服务中断的潜在成本

这些因素将支撑能力管理投资的潜在回报,并有助于确定您企业所应该追求的解决方案类型。

有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往…

有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往往都非常的复杂。而且,在当今加速发展的商业世界中,这种管理往往无法有效实施。优先级的改变、日益增加的复杂性和可扩展的云基础架构使得传统的容量管理模式已经不太奏效。在新技术的支持下,由创新的IT领导者推动,新的容量能力管理模式正在出现。这种新的模式将IT资源使用视为对业务有意义的,使用自动化和分析来管理复杂性,并减少人工操作。

自从基于服务器的计算出现以来,容量管理作为一门运营学科已经存在多年了,其甚至可追溯到大型主机时代。而鉴于每一代的服务器平台都会创造自己独特的要求,这使得支持这一学科的相关商业工具也已经存在30多年了。伴随着数据中心从大型主机发展到中端计算,又从客户端服务器向虚拟化方向发展,使得数据中心业界对于容量管理工具的需求也在逐步发展。

在本文中,我们将与广大读者诸君共同讨论如何将容量管理中所涉及到的复杂监控、分析和预测缩减为一项健康的服务(当前绩效)指标,以及服务风险(未来绩效)的一个指标,使所有利益相关方更易于管理和更具可视化。

虚拟化技术的普及采用尤其带来了智能工作负载管理(IWM)的问题,使得容量管理不再是确保应用程序性能的充分解决方案了。特别是当将传统的容量管理解决方案用于现代数据中心时,会面临以下一系列的根本缺陷:

容量管理的战略优势

图片 3

图片 4

传统的平台不足以应付现代数据中心实时的运营操作

容量管理平衡成本和风险

中央指数分析迫使传统的容量管理解决方案需要批量执行,使得这些解决方案无法适应不断变化的应用程序需求。

在简化的意义上,IT容量管理是平衡业务服务的成本和性能的基础,其中基础设施的分配和配置是支点。如果您企业的基础设施配置不当或不足以支持业务需求,可能会发生长时间的响应时间问题和中断,从而使业务损失高达上百万。

传统的容量管理解决方案完全依赖于历史数据,因此无法应对不可预测的应用程序的需求模式。

避免这种情况的一种典型方法是过度配置基础设施,即估计所需要的容量,并使之翻一番。据估计,多达50%的云基础设施是未使用的,这种现象在物理存储中甚至更多。过度配置浪费了大量的硬件,软件许可和管理成本。而诀窍就在于合理化您企业的基础设施规模,以满足当前的需求,并确切的知道何时何地需要增加多少额外的容量。

这些传统的容量管理解决方案所给出的生产的建议甚至往往在被执行之前就已经被淘汰了。

为了有效优化业务服务,容量管理过程由四个主要步骤组成:

这些传统的容量管理解决方案依赖于历史数据,故而不适用于云原生(cloud-native)应用程序工作负载。

  1. 数据收集和管理。收集您企业环境中每款应用程序、服务和系统的详细信息和相关的性能数据。
  2. 数据分析。分析数据以确定服务的健康状况,潜在的性能问题以及这些问题的根本原因,以便您可以解决这些问题。
  3. 预测。准确预测资源短缺何时何地会发生,这样才能避免资源短缺。
  4. 提交可执行的信息。为各利益相关方:IT分析师、服务经理和业务领导提供他们可以据此做出决策所需的信息。

传统平台仅侧重于基础设施,同时还忽略了应用程序的性能

使IT变得如此具有挑战性的是,鉴于动态发展的技术,不断变化的业务需求和需求的增长都增加了复杂性,使得IT环境不断变化。时间一直是性能问题的本质,但是IT人员分散在各种任务和项目中,减少了确保服务交付的时间。最后,容量管理专长越来越少。根据一家业界领先的分析公司Research
In
Action预测,到2020年,容量和性能管理的技能缺乏将成为75%的企业增长的主要制约因素或风险。

这些传统的容量管理解决方案使用不适合的分析算法,专注于基础设施利用率,而不考虑应用程序性能。

或许正是由于这些挑战的存在,使得许多技术领导者认为,容量管理是一大竞争优势,在未来几年将会变得更加如此。据Research
In
Action预测,到2020年,35%的企业将使用容量管理工具来获得竞争优势(而今天的比例则为20%)。

传统的容量管理解决方案没有将工作负载需求与基础设施供应相关联的语义来确保应用程序的性能。

有效的容量管理所带来的竞争优势:

确保现代数据中心的应用程序性能需要一款能够解决智能工作负载管理问题的实时控制系统。但伴随着虚拟化技术兴起而出现的软件定义的数据中心的设计并不包括这个系统。

  1. 减少了员工致力于提供高可用性和一致的服务所花费的时间
  2. 减少任务关键型应用程序的停机时间和瓶颈
  3. 优化硬件,软件和云存储投资
  4. 更有效的业务规划,使IT投资与业务目标保持一致
  5. 保护企业品牌声誉

数据中心容量管理的定义

借助自动化管理复杂性

市场调研机构Gartner公司对容量管理工具做出了如下的定义:

近年来,大部分已经成功的部署了容量管理的IT企业均使用了分析和自动化。这种方法的优点是速度和准确性,即使在非常复杂的环境中,但需要花费相当的时间,并采用恰当的工具和流程来有效实施。

“IT基础架构-容量管理工具可以生成与基础架构
-容量相关的报告,并能够执行历史数据分析和容量相关分析,同时具备IT和业务场景规划的能力。这些工具的特点在于它们能够广泛的与来自各个不同领域的专用工具(例如实时性能监视工具)的数据充分集成整合在一起的卓越功能;能够为各种各样的基础设施组件提供预测、咨询和自动化;能够对影响基础设施性能绩效的潜在因素进行深入的分析;以及他们对假设情景及其与在线分析处理(OLAP)业务报告工具的集成的支持。

要了解这种方法,如下,让我们来探讨前面所述的每个核心流程:

容量管理工具的目标是为了解答以下问题:

  1. 数据收集和管理
  2. 数据分析
  3. 预测
  4. 提供可执行的信息

我所在企业的数据中心是否具备足够的基础设施容量能力来支持企业当前和未来的工作负荷?如果没有,那么,我企业何时必须获得额外的容量;及什么类型的容量?

数据采集

改变我所在企业的数据中心的基础架构的容量或配置将会产生什么影响?

性能数据必须以具备足够的细粒度级别进行收集,以满足业务交易的需求。例如,实时交易和在线购物需要比批量处理更多的细粒度。请记住,您企业所使用的收集工具必须以自动化和高度可扩展的方式提供详细,及时的数据,以确保项目的成功。

在各种操作环境之间迁移工作负载的最佳方式是什么?

数据分析

关于容量管理历史的简单回顾

传统上,这种分析是由容量管理专家通过简单的工具(如电子表格)“手动”检查数据;或通过构建和维护定制的工具和查询来执行的。这种类型的手动分析需要花费大量的时间和专业知识,并用到在许多企业中已经薄弱的资源。自动化是一大解决对策,尽管在这方面存在较少的可行解决方案。历史上,许多这些“自动化”解决方案仍然需要大量的时间来设置,并在提供有用的信息方面仍然受限。然而,技术现在可以用更实际和更有效的方式解决分析问题。

容量管理工具最初是为支持IBM的大型主机而开发的。彼时,主要的驱动因素是大型主机的硬件成本过于昂贵,因此,业界花费了大量的精力以便准确地确定究竟需要多少硬件。

预测

伴随着中档服务器的出现,容量管理的问题开始不再被业界突出强调。尽管确定具体应该采购多少硬件的问题仍然非常的重要,但是两大趋势使得这方面的问题不再是业界的突出重点难题了。首先,硬件的成本变得不那么昂贵,因此使得企业客户具体需要采购多少容量的精度变得不那么重要。第二,虽然主机在单台服务器上运行了多款应用程序,但中端系统往往是每台服务器上只运行单款应用程序。这简化了规划的过程,同时还减少了对复杂工具的需求。

为了准确预测性能,我们需要认识到,计算机系统的行为不是线性的。如果其是线性的,那么预测就像线性趋势一样简单。现实是排队发生。排队是指当一款CPU、控制器或其他设备有超出其所能够执行处理的工作进入时的情况。然后,服务不得不等待排队,就像排队等待在商店款台结帐一样。当只有很短的队伍或没有排队时,响应时间与所添加的工作成比例。您企业再添加一些工作,一些应用程序或基础架构,就有了更多的工作亟待处理。排队由此开始,突然间的延迟是巨大的。这就是所谓的曲线中可怕的拐点,之后的响应时间呈指数增长——等待时间比工作时间还要长,响应受到很大的影响。

接下来,从中端UNIX系统到基于Wintel平台的客户端-服务器系统的转变,再次改变了格局。服务器的价格开始下滑,且大多数服务器仍然是单一的应用程序。这继续削弱了容量管理工具的价值。

图片 5

随着虚拟化技术的出现,容量管理问题开始看起来更像是大型主机的问题。借助虚拟化技术,使得企业客户在同一台服务器上运行多款应用程序再次成为常态。另外,虽然单台服务器的成本持续下降,但服务器的数量却大幅增加了。

经常,IT假设延迟将始终是线性的,而他们也正在疯狂地争取解决这一问题。

根据Gartner公司在2014年的市场调研显示,仅不到5%的企业正在使用IT基础设施容量管理工具。他们进一步估计,到2018年,只有30%的企业将采用这些工具——年复合增长率只有5%。鉴于这一工具类别已然成熟,那么,一个显而易见的问题便是:“为什么数据中心业界对于该工具的普及采用率如此之低呢?”而由此引发的进一步思考是:“鉴于其在数据中心业界的普及采用率如此之低,为什么其普及采用的增长还如此缓慢呢?”

为了避免拐点,许多IT机构遵循始终不让系统所处理的任务太繁忙的策略,这意味着过度配置——保险但却造成了浪费。他们为避免拐点付出了太多代价。

容量管理与工作负载管理

你企业必须清楚的知道拐点将在何处出现,以便在没有过度配置的情况下避免它,这需要了解IT组件如何交互来执行工作。使用各种技术来预测性能的不同程度的精度,从Excel电子表格到线性趋势,到模拟建模,再到分析建模。

伴随着虚拟化技术的出现,尽管多款应用程序可以在单台服务器上同时执行,但这些应用程序并不是在单款操作系统实例中执行的。管理程序处理的是资源的共享而不是操作系统。这使得问题的范围从计算资源扩展到了包括存储和网络资源。

然而,直到最近,这些解决方案都需要用到大量的专业知识,专长和时间。庆幸的是,现在可以非常及时地自动获得预测。

此外,确保应用程序性能所需的智能工作负载管理功能被排除在管理程序层之外。虽然容量管理仍然是一种有用的规划工作,但对于确保性能的管理程序来说,这并不是一个充分的补充。

提供可执行的信息

在现代数据中心确保应用程序的性能

有效执行上述三个领域的结果应是生成可执行的信息和具备可视化的报告。由于IT决策通常对整个业务有影响,因此这些信息也必须以对非IT利益相关者有意义的方式呈现。例如,根据业务指标(如销售,SLA或正常运行时间)而不是根据诸如内存或I
/O等IT指标。IT部门花费数百或数千小时为各利益相关者创建报告并不常见。尽可能的情况下,报告任务也应自动化,使IT人员能够专注于主动解决问题和创新。

任何数据中心运营团队的主要目标都是确保其应用程序的性能,同时最大限度地利用所需的基础架构资源。在现代数据中心运营中所进行的每项活动(包括配置、监控、容量管理和自动化)都是为了支持这一主要目标。

案例:JN数据公司如何管理复杂性

虽然有人声称,通过自动化补充的容量管理可以解决智能工作负载管理问题,但这是不正确的。的确,容量管理对于确定未来的容量需求和规划迁移是相当有用的,但是,事后考虑增加自动化并不能为确保应用程序的性能提供适当的平台。其并不能填补虚拟机管理程序层之外的智能工作负载管理的空白差距。采用这种方法的解决方案会带来以下方面的不足:

实时识别和理解企业中值得关注的内容帮助JN数据公司的容量经理Henrik
Tonnisen向主要客户(其中包括丹麦第三大银行Jyske
Bank和丹麦最大的抵押贷款公司Nykredit)交付提供了市场领先的服务,资源效率和透明度。

1、这些解决方案使用不适合的分析算法,仅仅只专注于基础设施的利用,而不考虑应用程序的性能。

为此,Tonnisen将来自数万台服务器的技术数据融合到动态的自助服务报告中,以满足每个业务利益相关者的需求,将讨论从复杂的技术指标转变为可操作的业务信息。

2、这些解决方案完全依赖于历史数据,因此无法处理遇到不可预测的需求模式的应用程序。

Tonnisen表示,他们的团队在宣布推出新的自助报告仪表板后,获得了利益相关者的一致好评。

3、这些解决方案的强力分析迫使他们需要批量执行分析,并定期自动化,从而妨碍了这些解决方案对不断变化的需求做出反应。

一种新的模式

4、这些解决方案所提出的建议往往在被执行之前就已然被淘汰了。

自动化和分析已被证明对现代容量管理所带来的挑战是有效的。然而,直到最近,这些解决方案也仍然需要大量的时间和专门知识来实现有效的实施。

5、这些解决方案依赖于历史数据,故而并不适用于云原生应用程序工作负载。

当前,一种新的模式正席卷了整个行业。这种新的模式使用自动健康和风险评分来识别当前和未来的性能,以及未来的时间框架和严重程度问题。这是游戏规则的一个改变:节省了时间,需要的专业知识更少,使所有IT10企业的容量管理更简单,更易于访问。

最近,一些容量管理工具增加了根据其分析生成建议的能力,在某些情况下,可以通过脚本或与外部业务流程系统集成来处理这些建议。

为了方便计算每项服务的简单,易于理解的健康和风险分数,在幕后运行的是复杂的算法。监控列表可以被定义为将注意力集中在您所使用的服务上,负责并且容易地确定需要采取的行动,无论是解决当前问题还是扩展容量,以避免未来的问题。您企业不再需要花费数不清的时间在数据上了。自动算法将为您执行。

然而,在所有情况下,这种容量管理工具所使用的分析集中在提高基础设施利用率,而不是确保应用程序的性能。这是非常有问题的,因为重新配置基础架构以实现效率,而不考虑性能可能会导致严重的应用程序性能问题。

为什么要实行健康和风险评分?

当涉及到虚拟机的安置时,容量管理解决方案依赖于一种装箱问题
(bin-packing)算法,其中利用率峰值与峰谷匹配,以便优化所讨论的基础设施的密度。这种不复杂的方法有几个基本问
题。

健康和风险分数涉及容量管理过程中的两大主要功能领域:

1、无法实时执行

  1. 性能管理——识别和解决导致应用程序响应缓慢和服务中断的性能问题(健康状况)
  2. 容量规划——预测何时需要进行容量升级或额外的基础架构,以避免服务性能不佳或中断(风险)

在计算理论中,装箱算法被归类为一种组合的NP-hard(非确定性多项式,non-deterministic
polynomial)问题。这意味着找到该问题的解决方案是属于非常计算密集型的,由此导致的结果是,依赖于装箱算法的分析必须以批量的方式连续地实时运行。因此,由分析产生的自动化操作是周期性的而不是持续执行的。这类似于在文件系统本身内置写入优化之前磁盘碎片整理是如何发生的。

健康和风险分数如何计算?健康分数

这种方法的核心问题是,其根本无法确保应用程序的性能,因为只有实时自动化可以通过不断配置基础设施资源来满足当前应用程序的需求,进而应对波动的应用程序需求。

通过深入了解包含服务的每个系统来计算健康评分。分析排队网络模型用于计算实际的CPU和I
/
O性能,并与每个系统的理论最佳性能相比较。内存将根据当前的利用率进行评估,并通过查找与内存管理的正常活动级别的任何偏差来进行评估。通过检查当前可用容量和历史行为模式来评估磁盘空间使用情况。分析结果被整合并归一化,以创建一个易于解释的健康评分,范围从0到100,0-44表示健康状况不佳,45-54表示需要警告,55-100表示??健康状况良好。

2、无法处理不可预测的需求

风险评分

鉴于分析是批量定期运行的,它们只是基于历史数据,因此只有当未来的需求是紧密反映了历史需求时,那么这些数据才是准确的。

风险评分是通过运行容量规划算法来确定的,进而预测将来服务将如何运行。容量规划算法预测服务增长率对构成服务的系统的影响。分析排队网络模型用于计算未来的CPU和磁盘I
/
O性能,并与系统的理论最优性能进行比较。这些模型产生了一系列预测,这些预测说明了我们之前讨论的计算系统中固有的非线性行为。

虽然这种方法对于定期的容量管理可能是已经足够了,但是却完全不适合实时应用程序的性能控制。许多现代应用程序具有不可预测的需求模式,故而仅仅依赖于历史数据分析是不足的。

通过评估活动模式并在预测期结束时预测磁盘空间的使用情况。基于这些计算,生成风险分数来表示预测风险的严重性。风险分数归一化为0至100的范围,以代表风险量,0-44表示低风险,45-54表示警告,55-100表示??高风险。除了风险评分,还将预计发生性能不佳或停电情况的日期。通过在预测结果中查找一次性事件和周期性行为来预测风险何时发生,并计算发生风险的天数。

例如,虚拟桌面工作负载并没有一致的历史数据。即使传统的交易处理应用程序也会遇到不可预测的需求峰值,正是这些情况对业务流程产生了负面影响。为了使分析引擎能够确保应用程序的性能,其必须充分考虑到历史和当前的实时工作负载的需求。

简单性是王道

此外,由于自动化操作(如安置决策)只能定期执行,并且无法解决不可预测的需求,因此他们必须依靠净空分配(headroom
allocation)来允许足够的备用容量来处理意外的需求峰值。这种净空分配实际上降低了底层基础设施的有效使用,并不是解决波动需求的充分解决方案。使用净空方法,企业数据中心必须选择留下足够的未使用容量来处理任何预期的需求高峰或风险的性能问题。适当的解决方案能够实时响应波动的需求,消除过度配置和或将带来性能风险之间的困难选择。

鉴于所有的工作自动发生在幕后,容量管理要简单得多,所有的IT企业都更容易访问。企业不再需要雇佣大量数据科学家,工作人员的工作时间得以节省下来,预测不再需要内行专家。
IT人员和服务经理可以查看健康和风险的单一指标,其次知道应该在哪里集中注意力。

3、无法规模化的扩展缩放

准确性事项

由于bin-packing算法是NP-hard,其添加了多个维度,所以不容易实现规模化的扩展缩放。事实上,在基础架构领域,随着算法扩展到不仅仅考虑计算,而且需要考虑存储、网络和应用程序,执行分析所需的时间和资源也在呈指数级的增长。因此,不仅算法不规模化扩展缩放,其也不能实时转换为执行,因此无法保证应用程序的性能。最后,跨越多个领域扩展是非常困难的——不仅仅是计算,而且好包括网络、存储和应用程序。

算法和计算的准确性非常重要。那么他们有多准确呢?

4、自动化属于事后的想法

  1. 对于CPU和I /
    O活动而言,到目前为止,最准确的健康和风险测定使用分析排队网络模型。
  2. 对于磁盘空间和内存而言,智能算法评估利用率和子系统活动的模式,以准确地解释当前,并预测未来的利用率。

传统的容量管理工具的出现早于软件定义的数据中心,故而其最初并没有考虑自动化的因素。因此,执行分析,操作计划的制定及执行是独立执行的阶段。通常情况下,自动化是通过脚本或第三方业务流程来实现的,这使得解决方案的部署、配置和维护大大复杂化了。另外,因为自动化只能在完成分析之后发生,所以不能实时执行。

所有这些方法都适应工作负载,配置和其他环境变化。使用这些方法与复杂的算法,最终的结果是行业中最准确的健康和风险计算,准确率通常为95%.

5、操作执行计划不可靠

评估您企业的选项

由容量管理工具所制定的操作执行计划会遭受到一些致命的困扰——这些操作执行计划可能而且通常是不可用的。因为分析是基于历史数据而批量运行的,所以由这些数据所生成的所有操作执行计划都是基于这样的假设前提:当执行操作时,环境处于与数据捕获分析时相同的状态。因此,如果环境在数据捕获的时间与执行动作的时间之间发生了任何方式额变化,则这些操作将是无效的。

目前市场上有各种容量管理解决方案,可满足不同的企业环境和不同需求。而为了有效地评估它们,比较功能和方法是有帮助的,并且有助于理解它们将如何影响您企业的容量管理成果。

此外,因为所有操作是相互依赖的,所以单个更改(例如一台迁移的虚拟机)可能会使得整个操作计划无效。这种变化可能会发生在(由于算法的计算密度,通常需要花费几个小时)分析正在执行时,甚至在行动计划本身正在执行的过程中。事实上,如果在尝试执行行动计划之前没有办法确定是否发生了任何无效的变更,这种状况将进一步加剧。
因此,在动态变化的基础设施中执行操作行动计划的任何尝试都是不可靠的。

为了确定IT和业务服务的健康状况,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

6、不适用于云原生工作负载

  • 标准阈值比较
  • 增强阈值比较
  • 事件检测
  • 从正常运行到变化的比较
  • 分配比较
  • 排队理论

最后,基于历史分析的批量的容量管理完全不适用于云原生工作负载。越来越多的应用程序正在通过使用部署在容器(container)中的微服务来水平扩展。这些基于容器的微服务器将根据应用程序的需求而不断创建和实时销毁。因此,历史数据不足以执行批量容量分
析。传统的批量容量管理解决方案完全不适用于云原生工作负载,这意味着在不久的将来它们将面临淘汰。事实上,云原生工作负载只能由实时控制系统管理。

为了确定IT和业务服务的风险,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

结论

  • 线性趋势
  • 增强趋势
  • 事件预测
  • 分配预测
  • 排队理论

正如我们所看到的,容量管理工具并不适合确保应用程序的性能,因为它们无法实时执行、无法处理不可预测的需求、不能规模化扩展缩放、生成的操作执行计划也根本不可靠,并且完全不适用于云原生工作负载。

诸如标准阈值比较和事件检测等选项更容易设置,但提供的精度要低得多。分配比较和预测适用于虚拟环境,但是缺乏驱动资源效率的能力,因为它们需要考虑分配的内容与使用的内容。排队理论需要智能配置和细粒度数据,但在确定服务健康和风险方面提供了更为准确的结果。

确保现代数据中心应用程序性能所需要的是一款实时的控制系统,其可以解决随着虚拟化技术的出现,软件定义的数据中心的设计被被排除在外的智能工作负载的管理问题。

在选择企业容量管理解决方案时,应考虑以下因素:

【编辑推荐】

  • 环境中的物理和虚拟服务器的数量IT企业所管理的服务的数量
  • 未来3年预计的基建投资情况
  • 目前基础设施过剩的程度
  • 关键服务中断的潜在成本

这些因素将支撑能力管理投资的潜在回报,并有助于确定您企业所应该追求的解决方案类型。

【编辑推荐】

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图