互联网高可用架构探讨

2023-10-27

高可用指标与问题

高可用,英文单词High Availability,缩写HA,它是分布式系统架构设计中一个重要的度量。业界通常用多个9来衡量系统的可用性,如下表:

既然有可用率,有一定会存在不可用的情况。系统宕机一般分为有计划的和无计划的,有计划的如日常维护、系统升级等,无计划的如设备故障、突发断电等。我们对此作如下分类:

1.设备故障:机房断电、硬盘损坏、交换机故障。

2.网络故障:网络带宽拥堵、网络连接中断。

3.安全问题:利用系统漏洞进行网络攻击。

4.性能问题:CPU利用率太高、内存不足、磁盘IO过载、数据库慢SQL。

5.升级维护:由于业务变更或技术改进而引起的系统升级。

6.系统问题:分布式系统中存在服务的依赖而导致数据的不一致性,或是核心服务出现异常。

高可用主要手段

负载均衡

负载均衡(Load Balance),它将工作任务分发到多个工作单元上进行运行,它可以提高网络设备的带宽,提升网络数据处理能力,增强网络的稳定性。可防止机房断电、网络设备故障等问题。

负载均衡的实现可分为硬件负载与软件负载。硬件负载由专门的设备完成专门的任务,这种方式性能较高同时成本也高;软件负载通过软件代码实现,此种方式耗费操作系统资源,性能较低,容易出现BUG,也容易引起安全问题。

负载策略一般有轮询策略、随机策略、最小连接策略以及最短响应时间策略。

轮询策略:讲用户请求轮流分配给服务器,这种算法比较简单。

随机策略:随机选择一台服务器来执行任务。

最小连接策略:把请求分配给活动连接数最小的后端服务器。

最短响应时间策略:将请求分配给平均响应时间最短的服务器。

限流

限流就是避免服务过载,随着流量的提高,无论负载策略如何高效,系统的某个环节总会过载。就如木桶能装多少水取决于最短的那块木板,我们是无法保证系统的每个部分都保持同样的高吞吐量,因此要考虑如何优雅地提供有损服务。

常用的三种限流算法:计数器算法、滑动窗口算法、漏桶算法、令牌桶算法。

计数器算法:使用计数器在一定周期内累加某个接口的访问次数,当达到限流阈值时,触发限流策略,进入下一个周期后,重新开始计数。此算法较为简单,但会降低服务器的负载能力。

滑动窗口算法:将时间周期划分成更小的周期,按小周期来进行计数,根据时间滑动删除过期的小周期。这种算法使得周期划分得越小服务器的负载能力越高。

漏桶算法:将请求直接放入漏桶中,如果当前访问量超出漏桶的限流值,则把后来的请求予以丢弃,这样可以最大限度地提高服务器的负载能力。

令牌桶算法:以(时间周期/限流值)的速度向令牌桶里增加令牌,直到装满桶的容量,当请求到达时,分配一个令牌让其通过,如果没有获取到令牌则触发限流机制。

### 异步调用

异步调用一般有两种方式:一种是异步回调,一种是消息队列。消息队列方式也算是限流的一种手段,可以让请求一个一个地被处理,避免并发太高而引起的应用无法及时处理。这种方式相对与限流来讲,是一种无损的解决方案。但这种方案仅适用于非实时响应的业务。

### 超时重试与幂等设计

很多文章把超时重试与幂等设计分开来讨论,但我却认为它们是相辅相成,密切相关的。在设计超时重试时,一定要考虑幂等设计

超时重试机制:由于服务器宕机、网络延时、服务器线程死锁等原因,导致应用程序无法先限定时间内对服务调用方进行响应。因此当发生调用超时后,应用程序可根据调度策略进行重试。被调用的服务没有及时响应,可能会存在两种情况,一是服务内部发生异常,导致执行失败,没有返回任何消息;一是执行的服务耗时太长,没有及时响应,但实际已经执行成功。所以针对第二种情况要做幂等设计。

幂等设计:多次相同参数的请求对系统造成的作业都是相同的。常见的幂等方案有:MCVV多版本并发、唯一索引、token机制、悲观锁、状态机幂等、只读操作等。

降级与熔断

服务降级与服务熔断都是为了解决服务雪崩的问题,但不要把他们混为一谈,它们是有本质区别的。

降级是对系统的某个功能进行降级,可以只提供部分功能也可以完全停止该功能。降级一般由开关来进行控制,在不重启服务的情况下,对功能进行降级。它常常发生在高并发时段、机器卡顿、下游不太重要的服务异常等情况下。

熔断没有开关,它是一个框架级的设计,常常被称作断路器。它的主要作用是,当下游的服务因为某种原因变得不可用或服务不及时,为了保证整体服务的可用性,不再调用目标服务,直接返回默认处理或容错处理,从而使得整体服务可以快速响应。例如SpringCloud中的Hystrix。

降级与熔断的主要区别是手动与自动。降级主要是通过配置中心的热刷新功能,人为地对开关进行打开与关闭操作。而熔断则是根据事先设计好的策略,系统自动地根据策略来进行开关操作。但它们都是对功能进行关闭。

架构模式

主备模式

实际是一主多备,master负责提供读写服务,slave作为数据备份,一旦主机宕机,将其中一个备节点作为主节点。

主从复制

实际是一主多从,master对外提供读写服务,slave作为数据备份提供只读服务。主机定期复制数据给从机。多副本的关键问题是保证数据一致性,通常需要考虑数据同步延时的问题。

集群分片

集群分片是为了解决每台机器上存储全量数据的问题,面对大数据单机的存储量总是有上限的,当面对PB级数据时,单机是无法支撑的,因此就需要对数据进行分片。

异地多活

异地就是指在地理位置上不同的地方,可分为同城异地、跨城异地、跨国异地,多活就是指不同地理位置上的系统都能够提供服务。这种架构的复杂度较高,且部署成本也会提高。

设计原则:

1、 只把核心业务设计为异地多活,比如流量大、盈利高的业务

2、 保证核心数据的一致性与实时性,且可丢失、可恢复

3、 可采用多种数据同步的方案,比如存储系统同步、消息队列同步

4、 异地多活仅适用于大部分用户,以地区来论,覆盖主要城区

总结

在互联网架构设计中,高可用是必不可少的环节,要从网络架构、服务架构、数据架构以及软硬件架构等多方面来分析设计,是架构师必备的技能之一。

作者:京东零售 谷伟

来源:京东云开发者社区

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

互联网高可用架构探讨 的相关文章

随机推荐

  • 【sm2算法】基于mbedtls开源库国密算法的使用(一)

    基础知识 1 公钥 在代码编程中 公钥是使用64个字节来存储的 2 私钥 在代码编程中 公钥是使用32个字节来存储的 对应的代码具体实现 1 mbedtls sm2环境 在 mbedtls 中 sm2 环境是用结构体 sm2 context
  • <一> objectARX开发:VS2019+ObjectARX2021环境配置

    版本对照表格 1 下载安装VS2019 继 VS2015 和 VS2017 之后 微软于 2019 年 4 月 3 日发布了新版的集成开发环境 VS2019 和 VS2017 相比 VS2019 Visual Studio 2019 更加强
  • 如何爬取新三板数据库(一)

    如何爬取新三板数据 一 新三板数据是实证分析中较常用到的一个数据库 其包含了一万多家挂牌中小企业 涵盖了制造业 交通运输 现代信息服务 文化服务 商业服务等除第一产业外的几乎全部国民行业 新三板挂牌公司地域分布广泛 公司经营状况良好 其大部
  • C++模板特化和偏特化

    1 模板特化的引入 使用模板时会遇到一些特殊的类型需要特殊处理 不能 或不希望 直接使用当前的模板版本时 所以此时我们就需要对该类型定义一个类或函数的特例化版本 例 当使用一个判断相等的模板函数时 template
  • 【机器学习】样本方差和标准差

    S为样本方差 样本方差除以n 1而不是n 是因为样本可能没有全部反映总体 除以n 1 比除以n 的值大一些 从而更准确的接近总体方差 比如总体中有10个颜色的球 而取样本时可能只取了8种 如下图 果冻豆的例子
  • msvcp110.dll丢失的解决方法,大家最常用的三个解决方法【教程】

    win10是一款非常优秀的电脑系统 但有时候也会出现文件错误 比如msvcp110 dll丢失 这个问题可能会导致一些应用程序无法正常运行 甚至可能影响到系统的稳定性 那么 面对这样一个问题 我们应该如何解决呢 今天小编为大家带来的就是ms
  • 程序员如何优雅地转行?35岁老程序员告诉你

    在程序员的圈子里 网上经常热议的话题 比如 什么大龄IT公司职员被劝退 35岁程序员必须得转行 这些话题我觉得还是比较片面的 都是在一定的背景之下才有的个别情况 但是有一部分的程序员想转行这是可观存在的事实 我就是其中的一员 而且我已经通过
  • Pytorch入门教程

    作者简介 大数据专业硕士在读 CSDN人工智能领域博客专家 阿里云专家博主 专注大数据与人工智能知识分享 公众号 GoAI的学习小屋 免费分享书籍 简历 导图等资料 更有交流群分享AI和大数据 加群方式公众号回复 加群 或 点击链接 专栏推
  • 命令行打开TotoiseGit工具界面

    直接在左下角开始中打开它时 会提示 lortoiseGit is a shell extension That means it is integrated into the Windows explorer To use Tortoise
  • 【嵌入式】STM32利用arm-dsp库进行PID调节控制

    目录 一 实验简介 1 原理 2 所用外设 二 代码 1 PWM输出配置 2 定时器触发的DMA传输的ADC 3 主体代码 三 实验结果 在工程实际中 应用最为广泛的调节器控制规律为比例 积分 微分控制 简称 PID 控制 又称 PID调节
  • 重回csdn

    前段时间csdn帐号被盗 后来帐号被封 今刚找回来 所有博文付之一炬
  • Windows与Centos下的深度学习部署

    文章介绍2种深度学习部署思路 1 Windows下部署深度学习 确保只用本地机器也可以跑深度学习 GPU版本 2 Centos下部署深度学习 Windows作为可视化界面 利用Centos的CPU跑深度学习 CPU版本 一 Windows1
  • 程序设计综合实习(C语言):学生成绩文件管理

    一 目的 1 掌握文件指针的概念和运用 2 掌握文件的相关操作 打开 读 写 关闭 3 掌握文件的定位操作 二 实习环境 Visual Stdio 2022 三 实习内容与步骤 1 定义一个结构体数组 存放10个学生的学号 姓名 三门课的成
  • 转:人生比努力更重要的是选择,与时俱进是成功的源泉。

    如果有一天你隔壁开火锅店的张三 卖手机卖得比你好 你不用觉得惊讶 因为 这是一个跨界的时代 每一个行业都在整合 都在交叉 都在相互渗透 移动互联网改变生活 未来我们的生活会是什么样子呢 我们设想一下 晚上带着家人去吃饭 拿出手机点击附近餐厅
  • 汇编语言程序设计的实验环境及上机步骤

    汇编语言源程序编制完成后 在计算机上的操作过程分为四个阶段 编辑 汇编 连接 运行调试 如图1 一 实验环境 汇编语言程序设计的实验环境如下 硬件环境 微型计算机 Intel x86系列CPU 一台 软件环境 Windows98 2000
  • 类和对象

    一 类 每个类都定义了自己的作用域 每个类的成员函数和成员变量都在这个作用域内 成员函数可以任意访问所在类的其他函数和成员变量 C 的封装特性是对外的 在类内是可以任意调用和使用的 类似于C中的结构体 要访问类定义的对象的成员 类定义的对象
  • 通过css实现对勾(√)和叉号(×)

    通过css实现对勾 和叉号 第一种方式 HTML span class status correct span span class status incorrect span CSS correct display inline bloc
  • 字符编码和字符集

    编码和解码 按照某种规则 将字符存储到计算机中 称为 编码 那么 将计算机中的二进制数据按照某种规则解析显示出来 称为 解码 字符编码 就是一套自然语言的字符和二进制数据之间的对应规则 把这种对应规则 写成一张表 就是 编码表 也叫字符集
  • kv遍历

    var builder var builderKey var builderValue for var i 0 i lt message length i var c message charAt i var nextStr message
  • 互联网高可用架构探讨

    高可用指标与问题 高可用 英文单词High Availability 缩写HA 它是分布式系统架构设计中一个重要的度量 业界通常用多个9来衡量系统的可用性 如下表 既然有可用率 有一定会存在不可用的情况 系统宕机一般分为有计划的和无计划的