作者
Mesh Flinders
Author, IBM Think
Ian Smalley
Senior Editorial Strategist
什么是高可用性?
高可用性 (HA) 这一术语是指系统在近乎 100% 的时间里可供访问并保持可靠的能力。
高可用性系统必须能够承受中断情况,包括计划的停机时间和全站点范围的灾难。通常,HA 系统具备两个特征:
必须在近乎 100% 的时间里可供使用。必须能够满足某一组预先确定的用户期望。
随着数字化转型计划的不断发展以及诸多服务随之迁移到云端,包括 Microsoft、Amazon (AWS)、IBM®、Red Hat® 等在内的许多技术和软件即服务 (SaaS) 公司现在提供高可用性解决方案。
在关键应用程序要求基本消除系统停机时间的行业中,IT 系统的高可用性尤为重要。例如,在医院和数据中心,用户依赖高可用性解决方案来执行许多常规的日常功能。如果用户因任何原因而无法访问系统,系统就会被视为“不可用”。系统无法供用户使用的这段时间被称为停机时间。
HA 与灾难恢复 (DR)
灾难恢复 (DR) 由 IT 基础设施技术和最佳实践组成,旨在防止或最大限度地减少由灾难性事件造成的数据丢失和业务连续性中断。另一方面,高可用性 (HA) 关注的则通常是可能影响系统可用性的较小故障或错误。
尽管 DR 和 HA 有所不同,但它们都以最大限度地减少 IT 系统中断为目标,并且通常都采用冗余组件和冗余系统作为整体战略的一部分。此外,DR 和 HA 都使用数据备份来确保在发生各种问题(包括硬件故障、软件故障和停电)时数据可用。
HA 与容错能力
容错能力是指系统在一个或多个关键组件发生故障后仍能继续运行的能力。与 HA 类似,容错能力有助于在发生中断事件期间或之后保持系统可用。
但是,容错能力与 HA 在处理停机时间的方式上有所不同。HA 致力于尽可能减少停机时间,而容错能力却以零停机时间为目标,这一目标只能通过冗余机制来实现,即提供基础设施中的每个组件的备份或备用副本。
最新的 AI 新闻 + 洞察分析
在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。
立即订阅
高可用性的优点
如今的企业比以往任何时候都更加依赖于在线服务以及云和混合云架构来提供关键应用程序和服务,致使基础设施需求随之不断提高,也使高可用性成为当务之急。以下是高可用性系统为企业带来的一些最常见的优势。
提高灵活性
数字化转型是大多数公司的关键目标,而要让员工和客户不受限制地访问关键应用程序,系统的高可用性至关重要1。
受保护的数据
借助高可用性架构,可确保组织的重要数据始终可用、可访问且免遭未经授权的泄露。
提高品牌声誉
对于包括 SaaS、航空和移动技术在内的诸多行业的企业而言,如果系统故障导致数小时或者哪怕数分钟的停机时间,都会带来一场公关噩梦2。高可用性基础设施可确保品牌声誉不会因中断或意外停机而受损。
更好的客户服务
托管服务提供商 (MSP) 必须提供高可用性网络,否则将面临无法履行其服务级别协议 (SLA) 的风险。HA 系统可帮助 MSP 为珍贵的客户提供可以依赖的网络,例如帮助自动驾驶汽车安全行驶或帮助医疗设施管理患者记录的网络。
AI 学院
利用混合云实现 AI 就绪
本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。
转到视频集
如何实现高可用性
无论是致力在医疗保健或金融等行业实现零停机时间,还是只想寻找办法避免中断对声誉造成损害,希望实现高可用性的企业通常都遵循 4 步流程。
消除单点故障:单点故障指的是那些一旦发生故障就会导致整个系统停止运行的组件。例如,如果一组服务器依赖于单个网络交换机运行而该交换机发生故障,那么该网络上的每台服务器就都会发生故障。为了减少甚至消除单点故障,通常会采用一种称为负载均衡的策略,即,使工作均衡分布于系统的能力范围内。
建立可靠的故障转移机制:故障转移是指在主系统发生故障的情况下将工作负载从主系统转移到辅助系统。当企业建立起可靠的故障转移机制后,就可以轻松转移工作负载,而不会造成严重的停机事件、数据丢失或运行性能下降。
即时检测故障:高可用性依靠适当的流程来即时检测系统中发生的故障或错误。许多新式系统都内置了自动故障检测功能。有些系统甚至可以检测故障并选择下一步操作,例如实施故障转移流程。
打造强大的数据备份和还原能力:当系统的个别部分发生故障时,如果没有制定适当的备份和还原程序,数据可能会丢失。数据保护技术和实践将数据和应用程序定期复制到一个独立的辅助设备上,以便快速恢复数据和应用程序。
负载均衡
许多 HA 系统使用负载均衡,它是在多个服务器之间分配流量以优化应用程序可用性的过程。例如,在流量高的网站上或云服务中,系统每天收到的用户请求以百万计。负载均衡确保应用程序可以不间断地及时从 Web 服务器向用户提供内容。负载均衡、尤其是同时使用多个负载均衡器,可以帮助确保系统中没有任何单个组件不堪重负进而导致可能造成停机或中断的单点故障。
冗余
冗余(当主组件发生故障时,有一个辅助组件或备份组件可以接管)是高可用性系统的重要组成部分。即使某个组件无法运行,冗余也能使数据库仍然可供用户和应用程序使用。如果系统中的某个组件不是冗余的,则该组件会被视为单点故障,因为失去该组件可能会导致整个系统无法工作。
高可用性集群
高可用性集群是指一组相互连接的机器,它们作为单个系统协同工作。当集群中的一台机器发生故障时,集群管理软件将其工作负载转移到另一台机器上。在高可用性集群内,每个节点(计算机)之间共享的存储空间可确保在单个节点停止运行时不会丢失任何数据。
如何衡量高可用性?
高可用性的衡量标准是,系统是否 100% 运行或从未发生过一次中断。虽然任何系统都无法 100% 运行,但设置此目标有助于衡量系统在一段时间内的可用性。对于高可用性系统和服务,最常见的指标称为“五个九可用性”。
五个九可用性
五个九可用性意味着系统在 99.999% 的时间内都能运行和执行。通常,只有医疗保健、运输、金融或政府等非常重要的行业中的系统才要求达到五个九可用性。这些系统对人们的生命、食物和住所获取以及经济福祉都很重要。
不在这些非常重要的行业中运行的系统通常不需要如此高的运行可用性,它们可以满足于“三个九或四个九”(99.9% 或 99.99%)可用性。经常用来描述这种情况的另一个说法是,高可用性系统的“正常运行时间达到 99.9/99.999%”。
其他重要指标:平均时间和恢复时间
除了五个九可用性之外,IT 系统管理员还使用其他几个关键指标来衡量系统的可用性:
平均故障间隔时间 (MTBF):平均故障间隔时间 (MTBF) 是衡量系统或组件可靠性的指标。它是维护管理的关键要素,代表系统或组件在发生故障之前的平均运行时间。MTBF 公式通常用于衡量工业或电子系统的可维护性,因为在这些系统中,一个组件的故障可能会导致严重的停机甚至安全风险,但 MTBF 也适用于多种类型的可修复系统和不同的行业。
平均修复时间 (MTTR):平均修复时间 (MTTR) 有时也称为平均恢复时间,是用来衡量系统或设备发生故障后修复所需的平均时间的指标。MTTR 包括从故障发生到系统或设备重新恢复正常运行的时间。这包括检测故障、诊断问题和解决问题所需的时间。MTTR 是一个重要的监控指标,因为它评估系统和设备的可用性和可靠性。
恢复时间目标 (RTO):恢复时间目标 (RTO) 是从中断(计划中断、意外中断或灾难)中恢复并恢复系统、应用程序或一组应用程序的正常运行所需的时长。计划中断、意外中断和灾难恢复中断的 RTO 可能有所不同。
恢复点目标 (RPO):恢复点目标 (RPO) 是您需要保留截至该点前数据的相对于故障而言的时间点。恢复处理要保留在故障或灾难前至少截至该时间段的数据更改。零是一个有效值,相当于“零数据丢失”要求。
高可用性示例
随着众多行业的组织纷纷开展大规模的数字化转型计划,对基础设施的可用性需求也在不断提高。远程办公的出现和 5G 网络的普及使得用户普遍期望能够随时随地访问数据和应用程序。但满足这一期望的前提是必须有支持应用程序和管控数据访问的底层系统可用。以下是有助于现代企业获得蓬勃发展的一些高可用性系统示例:
电子健康记录 (EHR)
医生翻阅柜中文件查找您上次疫苗接种日期的日子已经一去不复返了。今天,如果您前往急诊室或专科医生诊室就诊,几乎可以肯定医生会在线访问您的病历。由于此类信息的重要性和私密性,EHR 是典型的高可用性系统,可在几秒钟内安全地提供准确的信息,并且停机时间接近于零。
自动驾驶汽车
无人驾驶或自动驾驶交通工具(如汽车、无人机等)依赖于快速、强大的互联网连接使控制它们的人工智能 (AI) 发挥作用。例如,当自动驾驶汽车靠近并停在红绿灯前时,需要近乎实时地处理数以万计的数据才能让车停在红绿灯前应该停的位置并于随后继续驶往目的地。高可用性对于各种自动驾驶交通工具的安全运行至关重要
物联网 (IoT)
物联网 (IoT) 是由实体设备、车辆、电器和其他物体组成的网络,这些物体内嵌连接到互联网的传感器,可以收集和共享数据。随着 IoT 生态系统扩展到道路、水道、家用电器、天气监测等领域,数以百万计的设备都要依赖于网络。高可用性有助于确保支持 IoT 设备的网络顺利运行,不会出现中断。
大数据
随着企业找到更多方法来使用他们在数字时代产生的海量数据,高可用性对于高效、有效的数据处理变得至关重要。数据中心和复杂的分析平台会持续执行数据处理和实时分析,一旦出现停机情况,项目可能会因此延误数月之久。HA 解决方案可以帮助企业全天候访问其重要数据。