金融级云原生探索实践系列 - 开篇

2023-10-29

由蚂蚁金服主办的 SOFAStack Cloud Native Workshop 将在 6月24日于 KubeCon + CloudNativeCon + Open Source Summit China 大会的同场活动中进行,欢迎报名参与,更多信息可见此链接

欢迎加入 SOFA 钉钉互动群(钉钉搜索群号):23195297

楔子

为支撑业务高速发展并积极拥抱主流技术,我们从 2017 年开始探索并构建以Kubernetes为核心的云原生应用 PaaS 平台。在 2018 年,我们已在网商银行顺利落地了 K8S 容器引擎,并顺利支撑了 2018 年双十一。2019 年伊始,国泰产险作为互金行业的典型代表,正基于 SOFAStack 容器应用服务和监控分析产品探索云原生架构转型。时至今日,已完成了关键业务 SOFABoot 应用的容器化改造,在开发、测试乃至灰度生产环境践行云原生的运维实践。

这将是一系列技术分享文章的开端,基于在实际金融机构和场景中落地的云原生产品项目经验,我们希望和大家一起分享从中获得的洞察和总结,探讨我们的产品观点、技术实现,并非常期待大家的建议和指点,欢迎一起交流共创。

云原生容器产品的金融机构落地挑战

从去年开始,云原生、Kubernetes、容器这些关键字逐渐从社区走向金融科技圈,越来越多的金融机构客户开始向我们咨询,云原生技术是什么,能够给企业带来什么价值,对现有业务有什么影响?落地的路径可能会是哪些?

我们的观点是,金融场景下的云原生,绝对不止是 12Factors,亦不止是 CNCF TOC 所定义的 5 大件,我们不仅要提供标准、通过一致性认证的 Kubernetes 产品,还需要满足更多金融场景需求,创造实际业务价值。

经过很长一段时间的产品研发实践、深挖内外容器平台落地诉求,金融客户的关注点可能包括但不限于以下几点:

  • 业务采用了云原生能否节省资源,提升工程效率?
  • 发现问题后如何做到快速止损,甚至线上零故障?
  • 如何在云原生下做到业务同城双活甚至异地多活的高可用容灾能力?
  • 能否和现有业务能无缝集成,如何做平滑升级?
  • 采用了云原生平台能否保证和现有云上一致的安全性?
  • 云原生能否支撑大规模分布式系统的架构?
  • ...

而基于以上实际场景下的落地挑战,我们对自身容器平台产品的设计和实施,提出了以下六大关键价值主张:

云原生容器产品的价值主张

一 使用 Immutable Infrastructure 的思想进行设计

在 PaaS 平台中,核心是应用。在之前的经典运维体系中,要对应用打一个全量快照不是件容易的事情,但在云原生世界中,会方便许多。从描述流量接入层的 Service 到描述应用配置和代码包的 Pod template,这些已是 kubernetes 的标准 Resources。

为了解决应用管理需求,我们定义了一个 CafeAppService 对象,用于整体描述上述内容,并通过 Revision 对象属性作版本控制(和 Knative 中的 Revision 类似)。用户每次的修改都是一个 Revision,发布一个应用本质上是发布该应用的一个 Revision,故可做到快速的弹性扩缩容,并且可以方便回滚到之前发布成功过的 Revision。相比之前基于包的经典发布运维体系,效率有极大提升。

1.png

图一 容器应用服务与版本

二 可审计和无损应用发布的能力

发布变更是 PaaS 平台提供的重要能力。对于金融客户来说,每次发布必须要有据可查,而且要保证安全无损。这里,我们将蚂蚁的安全生产理念融入其中,在产品层面上提供“可灰度,可回滚(应急),可监控”的能力。

为了做到上述能力,我们提供了发布单的概念,并定义了一个原生的 CRD:CafeDeployment。接下来逐一介绍。

发布单

主要两个用途:做应用发布的审查记录,用于统计分析,故障复盘回顾等;协调多个应用的发布顺序,这是由于金融业务对系统的可靠性要求高,尤其在涉及资金的主链路,另外,不少系统由于业务原因,存在依赖关系,必须做有序发布。

CafeDeployment

在这里只做简单介绍,后续会有专题介绍。该 CRD 拥有三种能力:

  • 原地升级(InplaceSet):升级过程中 Pod 的 IP 保持不变,可和经典的运维监控体系做无缝集成。
  • 替换升级(ReplicaSet):和社区版本的 ReplicaSet 能力保持一致。
  • 有状态应用(StatefulSet):和社区版本的 StatefulSet 能力保持一致。

除此之外,相比社区的 deployment,还具备 beta 验证,自定义分组策略,分组暂停,引流验证(配合 ServiceMesh)的能力。

2.png

图二 CafeDeployment 图示

三 具有高可用容灾能力的工作负载

金融业由于监管的要求对系统可用性和容灾能力具有很高的要求。从应用的生命周期来看,最主要有两个状态:发布态 和 运行态

对于发布态,由于存在 Pod 上下线的过程,线上有抖动不可避免,要做的是尽可能的降低抖动幅度以及降低系统报错率。kubernetes 的 deployment 在发布一个 pod 时,pod 里容器的 kill 和对应 endpoint 的销毁是异步的,这就意味着可能出现 pod 里应用容器已经 kill 了,但仍然会有流量打到该 Pod,导致出现报错,甚至故障。为了防止这种情况,我们采用 finalizer 的机制,保证在南北流量和东西流量(7 层协议)都切断的情况下才对 Pod 进行更新。

同时,还通过 CafeDeployment 里的灰度发布策略,保证发布态时线上系统的水位不会过低,防止出现流量过载,造成系统异常。

对于运行态,要考虑以下几个方面:Pod 异常退出后的重新上线,Node 故障后的 Pod 的迁移,机房级故障后系统仍然可用。对于第一点,Kubernetes 本身已经有了较好的机制;第二点,我们做了增强,使用自定义的 NodeLifecycle Controller 结合更加详细的监控信息来判断Node是否出现故障,然后做 Pod 迁移;第三点,从 Scheduler 方面进行保障,CafeDeployment 可以定义相应的高可用拓扑结构,以同城双活为例,在创建 Pod 时,调度器会根据定义好的拓扑信息尽量将 Pod 均分到不同的可用区,达到同城双活的状态。

四 一致的验证授权体验

蚂蚁金服 PaaS 平台在近 4 年的时间里,已经有了一套完整的 IAM 体系,并且许多客户已经基于此定义了许多的角色,用做安全防护。我们从两方面来提供一致性的体验:

首先,在产品上的操作上提供和原先一样的验证授权机制。只要客户将 K8S 内预先定义好的角色或者权限分配相应的用户或用户组,那该用户或者属于该用户组的用户就能在产品上做相应的操作。

其次,IAM 的权限和角色与 Kubernetes 的 RBAC 做映射。根据用户在 IAM 所具备的角色,在 Kubernetes 集群中创建相应的 ClusterRole,并生成访问 Kubernetes 集群的 token,创建 ClusterRoleBinding 与 token 绑定。这样用户使用 kubectl 操作集群时也可以具备相同的权限,保证权限的一致性。

五 经典到云原生的过渡能力

目前互金行业的应用的运行时绝大部分仍然以虚拟机为主,并且以传统的应用包方式进行部署和日常升级运维。对于向云原生的转型一定不是一蹴而就的,会有过渡期,在这段时间内,就面临着需要同时在经典与云原生下两种模式下同时做运维管理。

针对这种场景,APaaS 平台提供以下能力帮助客户解决痛点。

**第一,**支持经典与云原生的互访,拉齐两种模式的基础网络、应用层流量和接入层流量。在基础网络层面,采用VPC  Router 或者 ENI 方式,在几乎没有额外网络开销的前提下保证虚拟机和 Pod 可以互通;在应用层,虚拟机和Pod可以使用同一套中间件做服务注册与发现,并且可以相互调用;在接入层,虚拟机可通过 loadbalancer 类型的 Service 访问后端的 Pod,甚至不在 VPC 内的 on permise 应用也可通过公网类型 loadbalancer Service 访问到 Pod。

3.png

图三 经典与云原生的互访

**第二,**提供两种模式的混合发布能力。可以同时对经典虚拟机模式和云原生模式的应用进行发布运维,保持体验一致性。

**第三,**采用原地升级方式(InplaceSet)进行发布的云原生应用可和经典监控系统无缝对接,接入原有的监控与报警体系。直到所有应用做完云原生改造后,再迁移到云原生生态中主流的 metrics 监控体系。

六 支撑跨集群发布运维的能力

这是一个高阶话题,需要结合具体的业务场景来看。从实践经验来看,这会是一个架构演进路线:一开始采用一个集群管理多个可用区,在碰到容量瓶颈或者需要异地多活场景时,再开始考虑进行集群划分,采用多集群方式。以网商银行的业务为例,首先采取同城双活,然后到两地三中心,最后演进到现在的异地多活单元化架构。

在云原生架构下,我们需要解决两个问题。

**第一,**在架构演进过程中,如何保证上层接入产品少感知甚至不感知集群数量的变化。这类上层产品(比如发布运维、资源管理等),我们称为一方产品,通常具有“上帝”视角,需要获取到集群中的所有资源信息,当集群从一个演进到多个后,还需要能够分别出资源属于不同的集群,并作出相应的处理。我们从以下方面解决该问题。

  • 定义一个模型来标明资源所属的集群,并且该模型需要和现有模型建立联系,以便集群扩展后做准确路由。
  • 提供一个统一接入层来路由对不同集群的访问。
  • 一方产品使用该模型和统一接入层来访问集群。

**第二,**在演进到多集群之后,如何提供跨集群资源的统一视图。这点参考社区 Federation 对象的设计,需要将不同集群里的资源状态进行同步,之说以没有直接采取社区 Federation 方案,首先社区这块目前还是 Alpha 版本,还不成熟,另外,我们定义的模型和涉及到的业务场景很复杂。这部分内容正在建设中,后续将继续更新。

展望

金融级云原生之路才刚刚开始,将沉淀多年的技术积累与云原生紧密结合并开放给整个行业,是一个持续探索的过程。本文仅做是一个概览性介绍,其中的每一块内容都可作为一个专题来深度讲述,后面会持续更新,和大家分享我们最佳实践,欢迎关注。

关于我们

随着蚂蚁金融科技开放战略和国际化的业务背景,时至今日蚂蚁金服 SOFAStack 已经服务了许多家国内外金融机构作分布式架构技术转型升级,过程中也逐渐打磨和丰富了大规模运维监控产品体系,即**金融分布式架构-云应用引擎(SOFAStack-CAFE,  Scalable Open Financial Architecture - Cloud Application Fabric Engine),**其中容器应用服务(AKS, Application Kubernetes Service) 则是基于 K8S 打造的核心容器服务产品,致力于满足机房级高可用、安全、弹性、可观测性、发布变更管控策略等方面的要求,并力求降低复杂新兴技术带来的门槛和应用风险。

最后打个广告,欢迎加入 SOFAStack 产品研发团队,共建金融级云原生产品!目前产品经理、架构师 、前后端研发和质量等多个岗位开放招聘中,简历请投递:ranger.yrj@antfin.com

转载于:https://my.oschina.net/sofastack/blog/3060056

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

金融级云原生探索实践系列 - 开篇 的相关文章

  • Stable Diffusion 原理介绍与源码分析(二、DDPM、DDIM、PLMS算法分析)

    Stable Diffusion 原理介绍与源码分析 二 DDPM DDIM PLMS 文章目录 Stable Diffusion 原理介绍与源码分析 二 DDPM DDIM PLMS 系列文章 前言 与正文无关 可忽略 总览 DDPM 对
  • Maven学习笔记十七:Maven坐标和依赖(最佳实践之优化依赖)

    Maven坐标和依赖 最佳实践之优化依赖 在软件开发过程中 程序员会通过重构等方式不断地优化自己的代码 使其变得更简洁 更灵活 同理 程序员也应该能够对maven项目的依赖了然于胸 并对其进行优化 如去除多余的依赖 显式地声明某些必要的依赖
  • Objective-C中堆和栈的区别是什么?

    堆空间的内存是动态分配的 一般用于存放Objective C对象 并且需要手动释放内存 ARC环境下Objective C对象由编译器管理 不需要手动释放 栈空间的内存由系统自动分配 一般存放非Objective C对象的基本数据类型 例如
  • 【Linux】之 命令大全

    目录 一 帮助指令 二 目录操作指令 三 日期时间类 四 用户权限管理 root 五 文件属性 六 文件搜索类 七 压缩解压命令 八 磁盘查看和分区类 九 进程管理 十 系统定时任务 crontab 服务管理 十一 软件包管理 下载软件 十
  • 神经网络学习小记录51——Keras搭建孪生神经网络(Siamese network)比较图片相似性

    神经网络学习小记录51 Keras搭建孪生神经网络 Siamese network 比较图片相似性 学习前言 什么是孪生神经网络 代码下载 孪生神经网络的实现思路 一 预测部分 1 主干网络介绍 2 比较网络 二 训练部分 1 数据集的格式
  • ubuntu 16.04 修改MAC地址何IP地址

    永久修改MAC地址 方法一 1 编辑 etc init d rc local 文件 sudo gedit etc init d rc local 2 在此配置文件的最后面加上如 Ubuntu 修改网卡的MAC地址 的修改命令 注 16 04
  • 实验:基本的系统安全控制 实验环境 某公司新增了一台企业级服务器,已安装运行RHEL 6操作系统,由系统运维部、软件开发部、技术服务部共同使用。由于用户数量众多,且使用时间不固定,要求针对账号和

    实验 基本的系统安全控制 实验环境 某公司新增了一台企业级服务器 已安装运行RHEL 6操作系统 由系统运维部 软件开发部 技术服务部共同使用 由于用户数量众多 且使用时间不固定 要求针对账号和登录过程采取基本的安全措施 需求描述 允许用户
  • Android解决EditeText内容右对齐时光标位于hint之前的问题

    当EditText的gravity设置为end或者right时 在某些手机上输入框的光标位置会显示在hint文字之前 如下图 如果我们想光标的位置在hint文字后面 即最右边 解决的方法有 方法一 比较省事的做法 设置EditText的te
  • thinkphp5 访问不了多模块

    thinkphp5 访问不了多模块 只能访问默认模块 可能是nginx文件配置问题 更改nginx conf文件 在server段内添加如下代码段 location try files uri uri args if e request f
  • python火灾检测

    火灾检测是一项用于实时火灾探测和自定义图像的人工智能项目 这是火检测的第一个版本 它包含42幅测试图像的数据集 用于训练100幅图像 安装 如果您有一个NVIDIA GPU 那么您可以安装tensorflow gpu包裹 它会让事情发展得更
  • C# EF Newtonsoft.Json.JsonSerializationException 序列化出现异常

    在对EF EntityFramework 查询的数据序列化出现的问题 问题记录 Newtonsoft Json JsonSerializationException 序列化出现异常 Self referencing loop detecte
  • 二叉树面试题总结(Java)

    本文参考博客 http www jianshu com p 0190985635eb 先上二叉树的数据结构 class TreeNode int val 左孩子 TreeNode left 右孩子 TreeNode right 二叉树的题目
  • java自定义button类控件

    上面是做完后的效果 第一次用java来做自定义继承button类控件 如图看到的其实就只有一个经改写的button控件 style 1 2 3 4 是button内部的几个小label而已 不过中间的滑动效果做得不太好 滑动时有闪烁 还请高
  • 哲理故事300篇 下

    哲理故事300篇 上 http blog csdn net andylin02 archive 2006 08 23 1109314 aspx 哲理故事300篇 中 http blog csdn net andylin02 archive
  • 浅谈类和对象

    一 定义 类 类是一个模板 是抽象的 类可以用于创建对象 类是对具有相同特征和作用的对象的抽象 eg 学生是一个抽象的类 具体实现有小学生 中学生 大学生 对象 任何一个具体的事物或者物体就是一个对象 对象是对类的具体实现 eg 我的电脑
  • lr中需要注意的点--安装后打不开ie需要设置的地方

    前提 Loadrunner11仅支持ie9向下版本 若安装了ie10则需要在查看一安装的更新中卸载 1 设置ie浏览器为默认浏览器 2 计算机 gt 属性 gt 高级系统管理 gt 性能 gt 设置 过程中会提示重启 3 tools gt
  • spring 和springboot 整合rabbitmq

    文章目录 spring springboot整合 rabbitmq 4 1 spring 整合rabbitmq 4 2 springboot 整合rabbitmq spring springboot整合 rabbitmq rabbitmq
  • Java文档注释

    Java文档注释 Doc umentation Comments 注意不要将注解 Annotation 与注释 Comments 混淆 Java的有三种注释 1 单行注释 注释内容 2 多行注释 注释内容 3 文档注释 注释内容 Java文
  • vue z-index层级显示问题

    一个单页面 顶部有fixed的nav 当向上滑动页面时 发现nav里有的组件被下放的组件遮盖 第一时间明白这时需要修改层级设置 将下方的组件z index设为 1 nav的组件z index调高 发现还是有各种遮盖的问题 然后花了点时间找资
  • linux查看某个应用占用多少线程

    以tomcat为例 获取tomcat进程pid ps ef grep tomcat 10090 统计该tomcat进程内的线程个数 ps Lf 10090 wc l 数量就是该tomcat启动了多少线程

随机推荐

  • java异常(机制和捕捉(常见异常类))详解 +练习题

    Java 中的异常处理机制 1 什么是异常 异常 程序在运行过程中产生的不正常情况 程序在运行的时候 发生了一些不被预期的事件 从而没有按照我们编写的代码执行 这就是异常 异常是Java中的错误 但是并不是所有的错误都是异常 比如说 你在定
  • zookeeper的动态扩容

    附属意义的扩容 扩容的新增节点为观察者observer 1 观察者概念 a 在zookeeper引入此新的zookeeper节点类型为observer 是为了帮助处理投票成本随着追随者增加而增加的问题并且进一步完善了zookeeper的可扩
  • 研一寒假C++复习笔记--运算符重载实例

    目录 1 运算符重载 2 加号运算符重载 3 左移运算符重载 lt lt 4 递增运算符重载 5 赋值运算符重载 6 关系运算符重载 7 函数调用运算符重载 1 运算符重载 对已有运算符重新进行定义 赋予其另一种功能 以适应不同的数据类型
  • 数组扁平化flat方法的多种实现

    let arr 1 2 3 4 5 6 7 8 9 10 11 12 1 flat console log arr flat Infinity 2 toString console log arr toString split map it
  • puppet配置

    作为重量级批量自动化运维利器 puppet可以方便大批量停止或启动服务 比如我们经常需在一下停止几十台 mysql服务器 使用puppet配置分分钟搞定 而不需要一台台去手动停止 非常方便 确认服务器端和客户端正常工作 开始编写module
  • LaTeX出现图片错误代码:Paragraph ended before \Gin@iii was complete.

    问题 LaTeX出现图片错误代码 Paragraph ended before Gin iii was complete 答案 将导言区的 usepackage graphics 替换为 usepackage graphicx
  • node.js中res.writeHead的用法总结

    向请求的客户端发送响应头 该函数在一个请求内最多只能调用一次 如果不调用 则会自动生成一个响应头 因为实际开发中 我们需要返回对应的中文以及对应的的文本格式 所以我们需要设置对应的响应头 响应头决定了对应的返回数据的格式以及编码格式 使用方
  • 机器学习实战第十章 k均值聚类

    k均值聚类 文章目录 k均值聚类 什么是k均值聚类 具体实现 二分k均值聚类 实验 小结 什么是k均值聚类 试想一下 如果给一张图如下 要求对这张图中的点分类 你会怎么进行呢 我们当然可以认为所有的点都只有一个种类 毕竟他们本身只有坐标不同
  • 2023华为OD机试真题【数组合并】

    题目内容 现在有多组整数数组 需要将他们合并成一个新的数组 合并规则 从每个数组里按顺序取出固定长度的内容合并到新的数组中 取完的内容会删除掉 如果该行不足固定长度或者已经为空 则直接取出剩余部分的内容放到新的数组中 继续下一行 如样例1
  • 数据挖掘中常用的数据清洗方法

    在数据挖掘过程中 数据清洗主要根据探索性分析后得到的一些结论入手 然后主要对四类异常数据进行处理 分别是缺失值 missing value 异常值 离群点 去重处理 Duplicate Data 以及噪音数据的处理 1 探索性分析 探索性分
  • windows 设置exe文件开机自启动

    设置本地exe服务文件开机自启动 编辑up bat 内容如下 注意 binPath 后面必须有一个空格 echo off sc create Test binPath C Users test exe start auto start C
  • SUSAN边缘检测

    核同值区 USAN 相对于模板的核 模板中总有一定的区域与它有相同的灰度 这部分区域称为USAN区域 当核像素处在图像中的灰度一致区域 USAN的面积最大 当核处在直边缘处面积约为最大值的一半 当核处在角点处时则为最大值的1 4 因此 使用
  • 洛谷 P1009 [NOIP1998 普及组] 阶乘之和

    题目链接 https www luogu com cn problem P1009 思路 计算阶乘相当于大整数 1 1 1 依次乘以 1 n 1 sim n
  • unity日记4(鼠标键盘交互、实例)

    目录 鼠标事件 鼠标点击 抬起 长按事件 键盘事件 键盘点击 抬起 长按事件 键盘键位替换 实例 鼠标 音乐播放 暂停 实例 调用其他对象的组件 双方法 实例 调整其他对象的公有参数 鼠标事件 鼠标点击 抬起 长按事件 左键0 右键1 中键
  • pytorch学习笔记 —— torch.nn.LSTM

    使用 torch nn LSTM 可以方便的构建 LSTM 不熟悉 LSTM 的可以先看这两篇文章 RNN https blog csdn net yizhishuixiong article details 105588233 LSTM
  • Android 系统编译之内核编译

    本来想超频自己的手机的 于是发现需要编译内核才能实现 作为Android开发者的我 没有任何内核编译经验 只是想试一下 于是折腾了两天终于把内核成功编译出来了 现在分享下学习经验 我的是小米手机 其实我看了一下github 其他手机的内核开
  • 两天内,清华、北大发布三则讣告

    点击上方 视学算法 选择加 星标 或 置顶 重磅干货 第一时间送达 本文来源 北京大学法学院 清华大学建筑学院 沉痛悼念 两天内 清华 北大发布三则讣告 12月26日 北京大学法学院发布两则讣告 著名国际法专家邵津教授和著名国际私法专家孙蓉
  • 秒懂大小端:

    判断大小端代码 int temp 1 char p char temp if p 1 printf 小端模式 else printf 大端模式
  • Ant Design Pro V5精讲(基础篇九):TypeScript入门

    解决什么技术痛点 JavaScript是一门灵活的编程语言 但它的缺陷是没有类型约束 隐藏类型转换 var的作用域问题等 在编程中我们有一个共识 错误出现的越早越好 写代码出错比代码编译出错好 代码编译出错比代码运行期间出错好 开发阶段出错
  • 金融级云原生探索实践系列 - 开篇

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 由蚂蚁金服主办的 SOFAStack Cloud Native Workshop 将在 6月24日于 KubeCon CloudNativeCon Open Source