本杰明-富兰克林曾经说过"生命中唯一的两个确定性是死亡和税收"。但是,如果他是一名工程师,他可能会在这个名单上加上另一个,即故障。脸书的工程师们无疑会同意最近的故障,似乎是由于运行一个命令,无意中关闭了他们骨干网络的所有连接,不仅关闭了脸书,还关闭了Whatsapp和Instagram。
在故障期间,你会看到工程师们疯狂地试图弄清楚发生了什么,压力水平很高,来自各方的压力,因为企业正在亏损。而如果公司处理得不好,不仅会使工程师的压力进一步加大,从而阻止他们解决问题,而且会造成声誉受损,工程师和其他人有可能辞职......CEO们也会损失数十亿的投资。
当糟糕的事情发生时,作为一个工程师,你首先想要的可能是一个令人放心的拥抱,无论那是物理的还是虚拟的。今年的诺贝尔奖的主题是一个好的拥抱,因为拥抱已被证明对你的健康有好处,并提高你从危机中反弹的能力。因此,难怪当故障发生时,Twitter上充斥着#HugOps的标签。工程师们明白,参与解决问题的团队正在处理高水平的压力,即使只是在推特上发布#HugOps,也能带来真正的改变。
你将如何使HugOps在你的公司内成为一个真正的实践,而不仅仅是你在推特上的东西?
尝试在你的团队中促进心理安全。
这种容易谈论但很难培养的团队技能,要确保人们感到安全,可以提出问题,并对自己的工作和自己感到安全,不会因为这样做而受到惩罚。这有赖于团队的努力,当每个人没有让其他人感到安全时,他们要对自己负责。
如果你为了找出问题所在而去找谁负责,那么你的工程师所感到的所有焦虑都是合理的。构建你的事后分析,寻找根本原因,而不是根本人物,将使你能够专注于改善系统,而没有压力。如果故障是由 "人为错误 "造成的,那就更深入地寻找--为什么会有这种错误?糟糕的用户界面,或者系统或流程中缺乏检查和平衡,很可能允许一个错误进入生产。理想的情况是,你会有一个冷静、沉着的主席,把自己的情绪从情况中抽离出来,努力帮助其他人反思,并处理那些可能在事后仍然情绪激动的人。
迈克-泰森说得很好,"每个人都有自己的计划,直到他们被打脸"。套用这句话,铁人迈克说的是,当我们平静而美好时制定的计划,在一切陷入困境时并不适用。混沌工程旨在预测世界可能发生的变化;同时使用科学和艺术。艺术来自于"未来思考"(Futures Thinking)过程,着眼于可能的世界。科学是在这些未来的基础上问你的系统 "如果"。"如果可用的能源下降到10%,我的数据中心会发生什么 "或 "如果美国东部一号航站楼发生故障,我的公司会发生什么"。
那么,你怎么知道一家公司的HugOps做得好呢?我们认为,低焦虑、高责任心、有很好的团队共鸣和试图预测未来都是很好的指标。相反,在20名工程师突然失业之前被老板大骂则不是。