畅聊安全生产,对话B站、唯品会一线专家|TakinTalks大咖对谈

2023-11-08

“安全生产”是业界新兴起的一种概念,来源于传统行业,加强安全生产就是为了防止和减少生产安全事故 ,保障人民群众生命和财产安全,促进经济社会持续健康发展。

随着互联网发展,数字经济在经济总量中占比超30%,在以IT系统为主要支撑的新兴互联网企业中,各类系统故障虽不会造成人员伤害,但给企业带来的损失却不容小觑,除了直接的经济损失还会造成用户的大量流失,严重损害企业形象。

正因如此,数字化业务也需要“安全生产”,构建完善的安全生产体系能帮助企业解决当前的痛点问题:

1.互联网企业系统安全生产基础建设薄弱;

2.技术人员缺乏体系与规范的指引;

3.安全生产监督薄弱,无法落实到位;
在这里插入图片描述
数列科技微服务系统安全生产(稳定性治理)建设总体框架

本期【大咖对谈】我们邀请到了互联网企业的行业代表、TakinTalks社区的三位讲师——B站直播B&C端架构组leader吕帆、唯品会中间件技术专家陈俊峰、数列科技联合创始人杨德华 ,就活动保障效率、混沌工程、人员规范管理、安全生产等方向做了深入探讨,以下为对谈精彩片段,希望能对你有所启发——

(文末附查看完整版回放视频方式)

专家介绍

在这里插入图片描述

专家观点碰撞

1.活动保障是很多企业都要做的事情,除了保障效果,保障的成本和效率成了大家最为关注的问题,有没有什么降本增效的好方法?

B站吕帆:

活动保障中压测是投入人力最多的,当时应该有二三十人一起去做这个事情,其中比较麻烦的事情就是链路梳理这一块,当时压测链路梳理花了3周时间,不过B站的压测场景不会变动很大,另外新发布的功能,比如说我们最近做的虚拟主播这一块儿的东西它流量并不是特别高对稳定性也不会有大影响,所以梳理一次核心压测场景和脚本后续可以复用,这样就能为后续的活动保障降本增效。

在提升效率方面的话,其实还有一个非常重要的点,当你把一些准备工作做到极致的时候就会省很多事情,比如说我们有几个场景是需要一起压测的,单独压测的结果是无效的,那准备充足就不会发生这样的事情。

数列杨德华:

数列科技帮助了很多企业比如顺丰、中国移动、中国人寿等企业在生产环境做全链路压测,他们也会特别关注保障效率和成本的问题,像是链路梳理这块比较占用人工和时间的工作也是重点提效的部分。某些企业由于业务变更频繁、依赖也时常变化,数列科技开源产品Takin也是依据用户需求完善了链路自动梳理的功能,可以帮助企业在链路梳理上减少时间花费,有效提效50%以上。

唯品会陈俊峰:

确实每次大型活动的保障要花费很多的时间跟人力,我们最近也有在做优化方向的事情,有业务层面和技术层面的动作。

像业务层面就是更新了活动玩法,进行促销日常化,不会把大促的流量全部引到集中的时间点,例如双十一不会只是当天晚上开售,而是从11月1日就开始了,让流量均摊一些,那么保障压力也会减轻。

技术层面的话就会涉及到底层组件的产品化成熟问题,我们目前是已经有了压测平台,集成了几种压测方式。像之前压测各个团队都是各自在自己的压测环境中进行,包括录制流量回放也是各自完成的,现在这块做了整合,把标准化的流程做到产品里,这样也对人效的提高有很大的帮助。

2.把问题提前扼杀在摇篮里是最好的保障手段,混沌工程、故障演练开始进入大众视野,那它究竟是如何生效的?

B站吕帆:

保障工作的核心还是在于人,线上系统异常是没有办法避免的,那我们除了要锻炼系统的稳定性,还应该锻炼参与保障的人,让他们能够临危不乱,冷静及时地处理问题。混沌工程的重要环节就是故障演练,也是锻炼人和系统的主要手段。目前B站的演练并不是线上演练,而是在演练环境进行,因为线上演练容易产生脏数据污染生产环境,所以我们采用复制流量+复制环境的方法,未来我们也将继续精进。

数列杨德华:

混沌工程目的是提前发现和解决问题,保障系统稳定和用户体验提升。系统稳定是我们追求的结果指标,混沌工程是我们可以提升过程类指标的一个新的有效做法。数列科技的很多客户,也在这方面有所实践,他们多数也是以故障演练作为切入点。而故障演练在理想情况下的流程应该是:例行化故障演练、找出系统风险点、优化业务系统、产出可行有效的故障处理预案。

唯品会陈俊峰:

混沌工程还是很有用的,化被动为主动,让故障提前发生,来看系统的表现,也能提前准备预案去应对。目前我们有搭建隔离环境去做混沌工程的事情,也有相关的产品雏形,只是目前还没有落地到生产环境。毕竟要在生产落地混沌工程还是需要一定勇气的,除了要对系统有很大的把握,还得自上而下地去推动这个事情才能真正地落地。

3.保障工作的核心在于人,各种规范开始盛行,可怎么制定与落地又成了新的难点,有没有什么好的做法?

数列杨德华:

我们中国有句老话叫无规则不成方圆。同时瑞达利欧也专门写了一本书叫《原则》。在一定程度上来说,规范等同于原则,也就是说话、行事所依据的准则。规范其实就是一种管理手段,即使是针对系统制定的规范其实主要针对的还是人。在制定规范的初期就应该明确规范制定的目的以及具体的应用范围,这样才能更有针对性。

我这边也有一个想法,是不是可以参考“故障演练”去主动注入一些违反规范的事情,看看负责人员能否发现,以此获取快速的反馈,未来可能这块也能尝试。

B站吕帆:

关于规范怎么落实,做所有的事情都会讲究ROI,不必强制要求所有服务符合规范,主要要求核心业务符合相关规范。另外我们会通过一些特定的工具进行review,平时的宣导、培训也会有意识地去加强大家的规范意识,针对核心业务我们还会有处罚机制,触犯相关规范就会触发处罚,对应人员是需要负责任的。

唯品会陈俊峰:

规范和流程的制定我们多数是根据经验来的,从过往的badcase和goodcase中总结出来,这样也会更符合实际的应用场景,对于落地的阻力也会减轻。至于规范的实际落地,我们往往会结合着平台工具来实现,更标准也方便检验回顾与更新迭代。

4.“安全生产”是业界新兴起的概念,对此有什么看法?

数列杨德华:

数字化业务方面的安全生产区别于传统行业,跟用户体验、业务的正常运行是紧密相关的。目前一些企业应用涉及国计民生、基础设施的业务,从故障原因的注入、故障发生到故障发现再到技术人员上线,什么时候能定位,什么时候能恢复,都会有精细化的一些指标。提前制定好目标,围绕目标去进行演练或者通过真实的故障去review这些时间点,先看表面问题再找根因。相信未来这些内容会慢慢形成一套通用的标准。

安全生产,最终目标是0重大故障,当然很多企业每个月都会出现重大故障,所以大部分企业在落地的时候,会以降低重大故障数量作为阶段性目标,进而追求0重大故障。为了最终达成0重大故障,需要去度量整个研发流程的风险情况,进而去做到提前解决。

唯品会陈俊峰:

安全生产目前对我们一线技术来说的话就是避免系统故障,很多重大故障的起因就是一些小变更,由于变更人员的忽视,小问题慢慢变成大问题最后导致生产大故障,所以人员的约束、变更监控这些都是很重要的事情。唯品会接下来也会在混沌工程常态化、容量规划自动化、单元化等地方发力。

B站吕帆:

关于安全生产我们主要是围绕“一五十”的概念去展开的,也就是1分钟发现5分钟定位10分钟解决,但我们没有全部强制要求和度量。S11的时候大家都坐在一起,那处理速度就会更快,但平时或者非核心业务要做到“一五十”,要求就有些高了。当然“一五十”“多活”“多机房部署”等等也是我们未来要持续发展的方向。

精彩回放地址:https://news.shulie.io/?cat=5&cnel=ff530

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

畅聊安全生产,对话B站、唯品会一线专家|TakinTalks大咖对谈 的相关文章

  • 闵氏距离在文本检索中的应用

    1 背景介绍 文本检索是现代信息处理系统中不可或缺的一部分 它的主要目标是根据用户的查询需求 从海量的文本数据中找出与查询最相关的文档 随着互联网的普及 文本数据的规模不断膨胀 这导致了传统的文本检索方法面临着巨大的挑战 为了解决这些问题
  • 机器学习与人类智能的融合:未来趋势与挑战

    1 背景介绍 人工智能 Artificial Intelligence AI 是指一种以计算机程序为代表的智能方法 可以理解 学习和应用人类智能的某些方面 机器学习 Machine Learning ML 是人工智能的一个子领域 它涉及到计
  • 慢思维大脑:SOP流程的心理学背景

    1 背景介绍 慢思维大脑 SOP流程的心理学背景 慢思维是指人类大脑在处理复杂问题 做出重要决策时所采用的思考方式 它与快速 自动的快思维相对 主要通过以下几种方式表现 深入思考 慢思维会让人类大脑深入思考问题的本质 从而找出更深层次的解决
  • SpiderFlow爬虫平台 前台RCE漏洞复现(CVE-2024-0195)

    0x01 产品简介 SpiderFlow是新一代爬虫平台 以图形化方式定义爬虫流程 以流程图的方式定义爬虫 不写代码即可完成爬虫 是一个高度灵活可配置的爬虫平台 0x02 漏洞概述 SpiderFlow爬虫平台src main java o
  • 人工智能与模式识别的社会影响与应用

    1 背景介绍 人工智能 Artificial Intelligence AI 和模式识别 Pattern Recognition PR 是计算机科学领域的两个重要分支 人工智能研究如何让计算机具有类似人类智能的能力 如学习 推理 理解自然语
  • 掌握内网渗透之道,成为实战高手,看《内网渗透实战攻略》就够了

    文末送书 文末送书 今天推荐一本网络安全领域优质书籍 内网渗透实战攻略 文章目录 前言 如何阅读本书 目录 文末送书 前言 当今 网络系统面临着越来越严峻的安全挑战 在众多的安全挑战中 一种有组织 有特定目标 长时间持续的新型网络攻击日益猖
  • 技术管理者的核心能力在哪?

    作为管理者我曾经被下属当面问过 你为什么不写代码 诚然 我最近两年 代码越写越少 会越开越多 但 存在真的合理吗 我的核心能力应该是什么 看了一篇文章 它提出一个观点 技术管理者的核心能力在于技术判断力 通过在技术领域和非技术领域的长期积累
  • WEB前端常见受攻击方式及解决办法总结

    一个网址建立后 如果不注意安全问题 就很容易被人攻击 下面讨论一下集中漏洞情况和放置攻击的方法 一 SQL注入 所谓的SQL注入 就是通过把SQL命令插入到web表单提交或输入域名或页面请求的查询字符串 最终达到欺骗服务器执行恶意的SQL命
  • 2024年金三银四网络安全考试试题

    2023年金三银四网络安全考试试题 1 关于数据使用说法错误的是 A 在知识分享 案例中如涉及客户网络数据 应取敏感化 不得直接使用 B 在公开场合 公共媒体等谈论 传播或发布客户网络中的数据 需获得客户书面授权或取敏感化 公开渠道获得的除
  • 大数据毕业设计:python微博舆情分析系统+可视化+情感分析+爬虫+机器学习(源码)✅

    博主介绍 全网粉丝10W 前互联网大厂软件研发 集结硕博英豪成立工作室 专注于计算机相关专业 毕业设计 项目实战6年之久 选择我们就是选择放心 选择安心毕业 感兴趣的可以先收藏起来 点赞 关注不迷路 毕业设计 2023 2024年计算机毕业
  • 远程控制软件安全吗?一文看懂ToDesk、RayLink、TeamViewer、Splashtop相关安全机制_raylink todesk

    目录 一 前言 二 远程控制中的安全威胁 三 国内外远控软件安全机制 ToDesk RayLink Teamviewer Splashtop 四 安全远控预防 一 前言 近期 远程控制话题再一次引起关注 据相关新闻报道 不少不法分子利用远程
  • 【网安神器篇】——WPScan漏洞扫描工具

    目录 一 Wordpress简介 二 WPScan介绍 三 安装 四 获取token 1 注册账号 2 拿到token 五 使用教程 1 常用选项 2 组合命令 1 模糊扫描 2 指定扫描用户 3 插件漏洞扫描 4 主题漏洞扫描 5 Tim
  • 问CHAT很繁琐的问题会不会有答案呢?

    问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件 对极端低温事件研究较少 CHAT 回复 为这主要可能是由于以下几个原因 1 气候变化与全球变暖 当前 全球变暖和气候变化的问题备受关注 这导致科研者更加关注极端高温事件
  • Soul App:来一场始于“兴趣”,轻松自在的“零糖”社交吧

    岁末年终 回顾2023年 这一年你都做了什么呢 记不清楚没关系 互联网都帮你记录好了 2023年 B站的年轻人当 所见所闻 刷新自身认知时 往往会发送弹幕 啊 来抒发惊叹 这一年 支付宝 小荷包 的用户中00后占了4成 近一半更开启了 自动
  • 扬帆证券:突发利好!外资重大转变,A股收到多份喜报

    A股财报季 利好音讯密集传来 1月16日晚间 A股多家上市公司披露了成绩预告 其间成绩预增 扭亏等利好公告数量占比超80 其间 普瑞眼科公告 估计2023年净赢利同比添加高达1163 98 1285 51 别的 多家上市公司公告称 估计20
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • 使用企业订货软件的担忧与考虑|网上APP订货系统

    使用企业订货软件的担忧与考虑 网上APP订货系统 网上订货系统担心出现的问题 1 如果在订货系统中定错 多 货物了该怎么办 其实这也是很多人在网购或者是现实中经常会犯的一个错误 但是网上订货平台为大家提供了很多的解决方案 其中对于订单的修改
  • 网络安全(黑客)自学启蒙

    一 什么是网络安全 网络安全是一种综合性的概念 涵盖了保护计算机系统 网络基础设施和数据免受未经授权的访问 攻击 损害或盗窃的一系列措施和技术 经常听到的 红队 渗透测试 等就是研究攻击技术 而 蓝队 安全运营 安全运维 则研究防御技术 作
  • 【产品兼容认证】WhaleStudio 成功兼容TiDB数据库软件

    平凯星辰和白鲸开源宣布成功完成产品兼容认证 北京 2023年12月27日 平凯星辰 北京 科技有限公司 以下简称平凯星辰 旗下的 TiDB 产品与白鲸开源的 WhaleStudio 已成功完成产品兼容性认证 这一重要合作旨在为全球客户提供更
  • 【安全】Java幂等性校验解决重复点击(6种实现方式)

    目录 一 简介 1 1 什么是幂等 1 2 为什么需要幂等性 1 3 接口超时 应该如何处理 1 4 幂等性对系统的影响 二 Restful API 接口的幂等性 三 实现方式 3 1 数据库层面 主键 唯一索引冲突 3 2 数据库层面 乐

随机推荐

  • 浅谈Spring中的@Controller注解

    Spring 的 Controller 是单例还是多例 怎么保证并发的安全 controller默认是单例的 不要使用非静态的成员变量 否则会发生数据逻辑混乱 正因为单例所以不是线程安全的 Controller public class S
  • buuctf-misc-小明的保险箱

    小明的保险箱 题目提示四位纯数字密码 但是附件下载下来是jpg文件 猜测是压缩包文件 winhex查看时没有找到什么信息 但是看到了存在txt文件 binwalk一下 把文件放入共享文件夹 上一个博客有提及 binwalk 存在压缩文件 f
  • Java多线程实现的四种方式

    Java多线程实现的方式有四种 1 继承Thread类 重写run方法 2 实现Runnable接口 重写run方法 实现Runnable接口的实现类的实例对象作为Thread构造函数的target 3 通过Callable和FutureT
  • ES6 扩展运算符-将伪数组转换为真正的数组-Array.from()-find()-findIndex()-includes()

    扩展运算符可以将数组拆分成以逗号分隔的参数序列 console把逗号当成console log的分隔符 输出在后台 a b c 扩展运算符的应用 1 数组合并 1 1 1 2 2 将类数组或可遍历对象转换为真正的数组 转换的目的 可以调用数
  • Mybatis

    一 Mybatis简介 1 1 简介 MyBatis 是一款优秀的持久层框架 它支持自定义 SQL 存储过程以及高级映射 MyBatis免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作 MyBatis可以通过简单的 XML 或
  • Welcome to CSDN————My First Time Write Blog

    Welcome to CSDN My First Time Write Blog 蒟蒻到巨佬 遥不可及 的成长计划 新初一记 第一季自我总结 New hand 来自CSP的初一蒟蒻 请求巨佬教博客的正确 标准写法 2019年7月纪中中集训自
  • 使用最小花费爬楼梯

    到达第i级台阶的阶梯顶部的最小花费 有两个选择 最后踏上了第i级台阶 最小花费dp i 再迈一步到达第i级台阶楼层顶部 最后踏上了第i 1级台阶 最小花费dp i 1 再迈两步跨过第i级台阶直接到达第i级台阶的阶梯顶部 所以到达第i级台阶的
  • MATLAB中求图像中某一区域的质心

    在 MATLAB图像处理宝典 秦襄培 编 384页 有 一个regionprops函数 这个实现对二值图的多种描述 以下内容http blog 163 com zwg 1314 126 blog static 353332462011918
  • Android Studio 问题(二)Failed to find Build Tools revision 28.0.2

    在第一次配置使用Android Studio的时候 可能会出现 Failed to find Build Tools revision 28 0 2 此时 只需要根据提示 点击下方的连接进行安装即可 如果不出现下方的链接 点击右上角的 Tr
  • 使用Navicat远程连接服务器上的mysql数据库

    环境准备 服务器中安装mysql数据库 本地安装Navicat Premium 准备好服务器的ip地址 服务器登录密码 mysql数据库的密码等 服务器中mysql忘记密码解决方法 修改服务器中MySQL的登录设置 通过命令vim etc
  • npg收集指定多个文件目录存储大小监控指标

    原理 1 利用netdata的命令参数 collector textfile directory配置从指定文件读取监控指标信息 2 利用linux cron定时任务脚本收集指定目录存储空间大小信息写入 collector textfile
  • SpringBoot整合数据库之如何整合JdbcTemplate?怎么配置JdbcTemplate多数据源(连接多个数据库)?

    1 整合JdbcTemplate 1 1 引入需要的pom依赖
  • 《Java性能调优实战》笔记(一)Java编程性能调优、多线程性能优化

    文章目录 一 Java性能调优概述 1 1 性能调优标准 1 2 制定性能调优策略 二 Java编程性能调优 2 1 字符串 2 2 正则表达式 2 3 ArrayList和LinkedList的选择 2 4 使用Stream提高遍历集合效
  • 毕业设计-基于 BP 神经网络的房地产价值评估研究-matlab

    目录 前言 课题背景和意义 实现技术思路 一 房地产价值评估指标体系构建 二 基于 BP 神经网络的房地产评估模型构建 实现效果图样例 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕
  • php发送邮箱源码,php 发送邮箱实例代码

    php教程 发送邮箱实例代码 class pop3 public server pop3 126 com 服务器名 public server port 110 服务器端口 public timeout 30 超过多少时间就算连接失败 pu
  • java启动jar包修改JVM默认内存

    JVM默认物理内存 JVM初始分配的内存由 Xms指定 默认是物理内存的1 64 JVM最大分配的内存由 Xmx指定 默认是物理内存的1 4 默认空余堆内存小于40 时 JVM就会增大堆直到 Xmx的最大限制 空余堆内存大于70 时 JVM
  • 使用pydumpck反编译pyintaller生成的exe文件 python3.10

    目录 前言 一 pyinstaller生成exe 二 pydumpck反编译exe 1 安装 2 反编译exe文件 3 查看反编译的py文件 前言 pyinstaller生成的exe文件想反编译看下源码 但由于安装的python版本太高 p
  • 随机数生成(均匀分布、正态分布、C++)

    一 生成均匀分布的随机数 1 rand 生成的随机数在0到RAND MAX 2147483647 之间 在stdlib中定义 使用 结合 可生成某个范围内的随机数 但是这里生成的随机数是唯一确定的 include
  • 一键生成ios&android应用图标

    用的在线工具 https toool top app icon generate 只需要准备一张 1024 x 1024 的图片 即可生成各个分辨率的应用图标 十分方便
  • 畅聊安全生产,对话B站、唯品会一线专家|TakinTalks大咖对谈

    安全生产 是业界新兴起的一种概念 来源于传统行业 加强安全生产就是为了防止和减少生产安全事故 保障人民群众生命和财产安全 促进经济社会持续健康发展 随着互联网发展 数字经济在经济总量中占比超30 在以IT系统为主要支撑的新兴互联网企业中 各