简单说说容器/沙盒(Sandbox)以及Linux seccomp

2023-05-16

如果应用程序逻辑有误,会造成操作系统崩溃…
这句话其实不对。如果一个应用程序都能让一个操作系统崩溃了,那这一定是这个系统在设计上或者实现上的BUG!再次重申,我不知道谭浩强的C语言教材现在是怎么讲的,但是至少在15年前,很多老师都会说访问空指针会造成操作系统崩溃,这在32位虚拟内存的系统中是错误的。


虽然一个应用程序不能让一个正常的现代操作系统崩溃,但是它却可以对操作系统的运行环境造成巨大的人为破坏,比如触发一个操作系统潜在的漏洞…即便是基于虚拟地址空间的操作系统,也是不安全的。更退一步,抛开安全漏洞,从资源利用的角度看,如何限制一个进程或者一组进程可以使用的资源也是一个亟待解决的问题。换句话说,需求就是隔离

于是人们就想出了沙盒这个概念,即Sandbox。将一个应用程序或者一组应用程序隔离在一个受限的环境中,使其无法逃逸。

概念很OK,实现起来就五花八门了,各说各的理。何谓受限,如何确保…


很早之前就玩过Java Applet,这种依托本地JVM运行远程Java字节码的环境就是一个沙盒,通过一个特殊的类加载器从一个URL加载字节码并运行。后面自从不做Java了以后我就再也没有关注过沙盒这个概念,直到前些时间偶然touch了一下Docker。不禁感叹,时间过了10年,技术变化的太多。


和大概六七个朋友聊Docker,大家水平绝对是第一梯队,都比我强太多,结果从他们那里获得的结论和我预期的结论相去甚远。Docker不是红了好几年吗?然而在他们眼里,无一例外,都在唱衰,他们都是用一种鄙视甚至哀其不幸的眼光来看待Docker这个现象级的玩具,是的,至少4个人说了相同的话,Docker从上到下就是个培训班课后作业或者玩具之类的话,当然了,这些人中大多数互相并不认识…

我比较懵的是,我不知道该站哪队了,其实我是想本着学习的态度向他们讨教些干货的,可没想到上来就是如此形而上的东西,令我悚然。我记得上周末午夜正在看恐怖悬疑电影放松一下,结果收到来自不同人的三封邮件(其中一封不是讨论形而上学的,而是讨论那个macvlan虚拟网卡和宿主网卡之间通信的),看了以后,便关上了电视,打开了一个SecureCRT终端…我想实地考察一下Docker,firejail这些在他们眼里为什么是如此不堪。

我是并不懂什么容器,沙盒这些的,我只是在工作中碰到了一个关于容器内网卡无法释放的BUG,需要定位,所以才稍微窥了一眼Docker,后来又顺藤摸瓜了解了firejail,而已…最后突然发现,好一片广阔的天地,感谢这些人的介绍,我又了解了seccomp以及gVisor这些。


现在,表一下我的观点,形而上的观点。

Docker或者说类似的容器到底好不好,我觉得这里面牵扯到两个问题:

  • 内核态实现还是用户态实现的问题;
  • 内核态实现的话,它能不能做好的问题。

同样的问题在网络协议栈领域也存在,于是就诞生了各类一路高歌猛进的用户态协议栈,伴随着的就是各种对内核协议栈的唱衰。

诚然,内核作为一个通用的基础设施,很多人都倾向于别什么东西都往内核里塞,当然,我也一直都这么想的。那么只要是依托内核机制的一切东西,看起来总是有那么一点点别扭,总是想把它拽出来看看能不能在用户态实现,这就跟性能优化领域中大多数人看见数值参数就想调大一点是一样的。所以说,对于大多数持此想法的人而言,即便是seccomp也同样是不堪,不行,毕竟seccomp也有一部分代码在内核态支撑着。

我的看法稍微不同,我更倾向于解决问题而不是设计方案,所以并不是很在意方式。我并不认为Namespace,Cgroup这种内核机制和gVisor沙盒之类说的是一回事。不过从分类上讲,比较让人疑惑和费解的时,一旦承认我上面说的,即它们不是一回事,你就很难解释为什么基于Namespace和Cgroup的Docker叫做容器,而基于同样机制的firejail却叫做Sandbox(其manual上就是这么说的)。不过我还是选择忽略这种措辞上的不同,不再咬文嚼字。

如果说Namespace隔离地不够,有泄漏,那是BUG,我的第一想法是如何让它隔离地更彻底,而不是彻底放弃它。如果说Cgroup不够彻底,那就想办法让它彻底,管它用户态还是内核态呢,管它有没有污染内核框架呢。这是容器的范畴。

要说限制进程的行为影响到同一内核上的其它进程,我觉得seccomp就非常不错。你想想,应用程序如果从不进行IO,那么在运行期间,操作系统的存在就是一个累赘,比如我就一个CPU密集型的计算任务,根本就不需要操作系统,当然,站在操作系统的角度,为了公平性,还是需要进行强制调度的,除此之外,它便不需要为应用程序提供任何服务。这时应用程序和内核之间的唯一主动交互手段系统调用是不需要的(所需的内存可以在进程实际启动之前从库里早已准备好的内存池里申请),为了让这种不需要系统调用得到一种保证,用seccomp限制它不是很好吗?而这个是沙盒的范畴。


从概念上讲,沙盒真的就不该依托共享的内核来构建,然后再把共享的内核用某种机制比如Namespace,Cgroup隔离成至少看起来不那么共享的区域,而这种复杂的策略注定在内核态是做不好的。但在我看来,内核的问题仍然不过是一个bugfix的问题而不是一个refactor问题。

是的,沙盒是要在用户态做,然而,容器必须是内核支撑,换句话说,两者并不是一回事,容器里装的是沙盒而不是一个或者一组进程,没人会把罐头直接扔进集装箱的,高档西装在扔进集装箱前也要在外面包裹几层箱子…即便是gVisor也有介绍如何将其装进Docker。

如果你非要抬杠说不依靠内核容器就能做好一切,那么就一个问题,如果我把沙盒内的一个进程的一段核心代码污染了,比如污染成了:

while(1);

怎么办?怎么限制其CPU利用率?不要依靠任何内核的隔离机制。

UNIX/Linux内核本身就是大内核,因此它本身就是揉在一起的一大坨东西,不管是静态代码还是运行时逻辑,它不像理想中的微内核那样仅仅通过消息传递来沟通,而是依赖了很多共享的东西。

举一个最简单的例子,你启动一个容器:


root@debian:/home/zhaoya# firejail --net=enp0s17 --ip=192.168.44.55/24
Reading profile /etc/firejail/server.profile
Reading profile /etc/firejail/disable-common.inc
Reading profile /etc/firejail/disable-programs.inc
Reading profile /etc/firejail/disable-passwdmgr.inc

** Note: you can use --noprofile to disable server.profile **

Parent pid 40456, child pid 40457
The new log directory is /proc/40457/root/var/log

Interface        MAC                IP               Mask             Status
lo                                  127.0.0.1        255.0.0.0        UP    
eth0-40456       72:63:2f:a3:60:b3  192.168.44.55    255.255.255.0    UP    
Default gateway 192.168.44.2

Child process initialized
root@debian:~#

然后在容器外部运行一个消耗CPU的程序:

int main()
{
        while(1);
}

在容器内部的top显示中,你会发现:

root@debian:~# top

top - 19:40:41 up 1 day, 11:09,  0 users,  load average: 0.39, 0.10, 0.03
Tasks:   3 total,   1 running,   2 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  :100.0 us,  0.0 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu2  :  0.7 us,  1.0 sy,  0.0 ni, 98.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu3  :  0.3 us,  0.0 sy,  0.0 ni, 99.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  2033804 total,  1368180 free,   267104 used,   398520 buff/cache
KiB Swap:  1046524 total,  1046524 free,        0 used.  1614320 avail Mem 

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                            
     1 root      20   0   18264   2068   1816 S   0.0  0.1   0:00.02 firejail                                                                                           
     3 root      20   0   21132   4868   3156 S   0.0  0.2   0:00.08 bash                                                                                               
     8 root      20   0   44800   3620   3112 R   0.0  0.2   0:00.03 top                                                                                                

很费解吧,一共就三个进程,却有一个CPU的利用率达到100%,这如何解释?容器内的观察者无法观察到容器外的进程行为,无法分析是谁吃掉了CPU…

确实,这就是一个问题,然而,能解决吗?能啊。用调度组和Cgroup隔离一下,然后我们改变一下统计数据的解读方式,按照Cgroup内部来统计百分比,而不是全局统计,这就解决了问题。


对于沙盒而言,最典型最简单的操作系统级沙盒就是32位保护模式下的进程本身了吧,一个进程崩溃不至于造成整个操作系统崩溃。而在没有操作系统沙盒的时代,比如16位实模式Dos,真的就是一个进程崩溃整个操作系统就连带着崩溃。

32位虚拟内存隔离的代价,就是IPC代替了直接访问内存,消除这种代码的方式就是线程,所以说,线程就是隔离和效率之间一个权衡的产物,沙盒依然是进程。

对于Linux而言,它的风格是一贯的。沙盒是进程而不是线程,这点非常明确,然而Linux默认调度的却是线程而不是先调度进程再调度线程,在内核里,它只认task_struct这个schedule entry!也就是说,进程沙盒之间的CPU资源本来就是共享的而不是隔离的,然而内存却是隔离的。虽然我们可以把一个进程的多个线程放入同一个调度组,但是一般情况下没人去那么做,并且,调度组这个概念本身也是后来才引入的。


我的观点是,服务放进沙盒,沙盒在用户态做,然后将沙盒放入一个内核支撑的容器,配置好容器的规格,然后发布。不然,如果你要把所有的东西整成一大坨,那么就考虑类似JVM或者别的VM那样的大家伙吧….

不过,可以期待,肯定也有人看不惯JVM。总之,什么都是错。


咬文嚼字。

我觉得Docker和集装箱的隐喻为人们带来了一个新词,即容器,否则,就都喊沙盒了。这是Docker火爆了之后带来的礼物…

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

简单说说容器/沙盒(Sandbox)以及Linux seccomp 的相关文章

  • 博客园添加GitHub链接

    添加该样式涉及到博客园后台页面定制CSS代码和页首Html代码两处改动 1 将下列CSS代码添加至页面定制CSS代码处 1 GitHub Cornor 2 github corner hover octo arm 3 animation o
  • SQL-修改表名,列名

    sql 1 sql server修改表名 列名 修改表名 xff1a EXEC sp rename 原有表名 39 新表名 39 修改列名 xff1a EXEC sp rename 表名 原有列名 新列名 39 39 COLUMN 39 如
  • 程序员你为什么迷茫?

    你曾经充满热情 xff0c 是一位开源软件倡导者 xff0c 你崇尚全栈工程师才有未来的理念 xff0c 你渴望改变世界 但是现在你每天都处于焦虑之中 xff0c 你每天不断地学习各种技术Kotlin Swift React Native
  • Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略

    COCO数据集的简介 MS COCO的全称是Microsoft Common Objects in Context xff0c 起源于微软于2014年出资标注的Microsoft COCO数据集 xff0c 与ImageNet竞赛一样 xf
  • 类之间的组合关系

    继承加复合 这种情况下的构造顺序是 xff1a 先调用Base的默认构造函数 xff0c 再调用Component的构造函数 xff0c 最后调用自己的构造函数 析构的顺序与之相反 xff0c 先调用自己析构函数 xff0c 再调用Comp
  • maven pom.xml 详解(注释版)

    转自 xff1a http mrlee23 iteye com blog 1806412 pom xml Xml代码 lt project xmlns 61 34 http maven apache org POM 4 0 0 34 xml
  • 当用户支付成功,微信服务器与我们服务器中间网络断开时处理方案

    用户支付成功了 xff0c 但是微信服务器与我们服务器的网络中断了 这个时候 xff0c 我们的回调数据是没办法处理的 xff0c 这个时间的解决方案 可以有 xff1a 1 有支付脏表进行字段order status之类的进行区分哪些是没
  • java多线程设置超时时间

    情景 xff1a 多线程中个别线程执行时间会很长 xff0c 如果线程执行时间超过某段时间 xff0c 自动结束该线程 百度了很多答案之后大部分的解决办法都是利用Future类中的get long timeout TimeUnit unit
  • Android Studio安装Kotlin插件

    1 Kotlin语言介绍 Kotlin 是 JetBrains 在 2010 年推出的基于 JVM 的新编程语言 xff0c 是一种新的静态类型编程语言 开发者称 xff0c 设计它的目的是避免 Java 语言编程中的一些难题 比如 xff
  • VMware虚拟机教程

    什么样配置的电脑适合建立虚拟机 xff1f 当硬件配置达不到要求时 xff0c 虚拟机运行速度会很慢 xff0c 甚至不能运行 xff0c VMware的配置要求如下 CPU 最低主频266MB xff0c 建议P3 1GHz以上 xff1
  • <数据结构>无向连通子图个数求解(C语言版)

    求无向图连通子图个数 测试数据由m 43 1行构成 xff0c 第一行为两个正整数n 1 lt n lt 61 30 xff0c m 1 lt m lt 100 xff0c 顶点数 xff0c 边数 m行数据是边的信息 xff0c 表示该边
  • 【2015-2016,我在路上】

    前言 xff1a 每天 xff0c 每时 xff0c 每分 xff0c 时光的步伐永远不会停止 xff0c 当我提起笔 xff0c 写下的这一瞬间 xff0c 时间又是一年 xff0c 一年的时光 xff0c 在没逝去时 xff0c 感觉很
  • sourceTree中的git rebase变基操作

    sourceTree中的git rebase操作 记录Sourcetree 基于git rebase修改git提交记录的方法 sourceTree进行git rebase变基操作 sourcetree rebase的使用 sourceTre
  • Android 11 添加系统开机启动的Service方案

    近日 xff0c 在搞一套开机启动的Service xff0c 虽然在之前低版本弄过 xff0c 以为直接照搬过来就可以了 xff0c 结果还出了一堆问题 xff0c 比如framework里边 64 NonNull检测 selinux新规
  • 数据库范式(1NF 2NF 3NF BCNF)详解一

    数据库的设计范式是数据库设计所需要满足的规范 xff0c 满足这些规范的数据库是简洁的 结构明晰的 xff0c 同时 xff0c 不会发生插入 xff08 insert xff09 删除 xff08 delete xff09 和更新 xff
  • Android11 添加HIDL接口编译报错

    软件平台 xff1a Android11 硬件平台 xff1a QCS6125 近日 xff0c 在基线代码的Hardware层添加了HIDL接口 xff0c 整编出现了如下报错 xff1a 46 55871 118986 hardware
  • 2017阿里校招内推面试回忆

    首先 我得声明 我经历了内推的四次电话面试 一直到hr面了 但是最后还是被挂了 所以 对大家的帮助可能不是那么大 如果大家对我这个失败者的经历不是很感兴趣的就不用往下看 后来校招的时候 笔试直接就挂了 我猜测是不是跟我之前内推失败的记录有关
  • 快速查看网页元素的CSS样式

    浏览器 xff1a firefox 打开自己想查看的网页 xff0c 定位到自己想查看的元素 鼠标右键点击空白处 xff0c 点击检查元素 然后就可以看见这个元素的html和css代码啦 xff01 这个可以用来学习别人的网页 比如看见一个
  • 解决server2016多用户登录的问题

    昨天到今天从server2106上给组里所有的人都用设置好了用户 xff0c 并配置好权限 xff0c 新问题来了 xff1a 服务器最多只允许2个用户登录 xff0c 在组策略 xff08 组策略 xff09 里进行配置也不行 xff0c
  • C语言实现单链表的逆置

    单链表的逆置是一个非常经典的问题 xff0c 这里利用两个思想进行解决 首先 xff0c 我们需要看下原理图 xff0c 其实两个思想都是一样的 xff0c 都是使后一个的节点的 next 指针指向前一个节点 xff0c 依次递推 xff0

随机推荐

  • UNIX下C语言的图形编程-curses.h函数库

    相信您在网路上一定用过如 tin elm 等工具 这些软体有项共同的特色 即他们能利用上下左右等方向键来控制游标的位置 除此之外 这些程式 的画面也较为美观 对 Programming 有兴趣的朋友一定对此感到好奇 也 许他能在 PC 上用
  • 如何同时启动多个Tomcat服务器

    这篇文章转载自 如何同时启动多个Tomcat服务器 conf子目录中打开server xml文件 xff0c 查找以下三处 xff1a 1 修改http访问端口 xff08 默认为8080端口 xff09 span class hljs t
  • 找到合适的方案记录服务端日志

    做过服务端开发的同学都清楚日志是多么的重要 你要分析应用当天的 PV UV 你需要对日志进行统计分析 你需要排查程序 BUG 你需要寻找日志中的异常信息等等 所以 建立一套合适的日志体系是非常有必要的 日志体系一般都会遵循这么几个原则 根据
  • 过去的 2017 年

    过去的 2017 年分为两个部分 xff0c 前半部分偏忙碌 xff0c 个人时间较少 xff0c 但是收获甚微 xff1b 后半部分进入了一个学习的环境 xff0c 最主要的就是个人可自由支配的时间多了 xff0c 留给了我很多思考的时间
  • Android四大组件详解

    注 xff1a 本文主要来自网易的一个博主的文章 xff0c 经过阅读 xff0c 总结 xff0c 故留下文章在此 Android四大基本组件介绍与生命周期 Android四大基本组件分别是Activity xff0c Service服务
  • vim 中批量添加注释(块选择模式)

    批量注释 xff1a Ctrl 43 v 进入块选择模式 xff0c 然后移动光标选中你要注释的行 xff0c 再按大写的 I 进入行首插入模式输入注释符号如 或 xff0c 输入完毕之后 xff0c 按两下 ESC xff0c Vim 会
  • Socket通信原理和实践

    我们深谙信息交流的价值 xff0c 那网络中进程之间如何通信 xff0c 如我们每天打开浏览器浏览网页时 xff0c 浏览器的进程怎么与web服务器通信的 xff1f 当你用QQ聊天时 xff0c QQ进程怎么与服务器或你好友所在的QQ进程
  • linux下查看和添加PATH环境变量

    linux下查看和添加PATH环境变量 PATH xff1a 决定了shell将到哪些目录中寻找命令或程序 xff0c PATH的值是一系列目录 xff0c 当您运行一个程序时 xff0c Linux在这些目录下进行搜寻编译链接 编辑你的
  • Linux 内存映射函数 mmap()函数详解

    一 概述 内存映射 xff0c 简而言之就是将用户空间的一段内存区域映射到内核空间 xff0c 映射成功后 xff0c 用户对这段内存区域的修改可以直接反映到内核空间 xff0c 同样 xff0c 内核空间对这段区域的修改也直接反映用户空间
  • Cygwin获取root权限

    1 找到cygwin 的etc目录中有一个名为passwd的文件 2 用写字板打开passwd 这个文件 xff0c 找到以下部分 xff0c 把其中的windows用户名换成root xff08 共3处都改过来 xff09 Adminis
  • Linux Shell 只列出目录的方法

    在实际应用中 xff0c 我们有时需要仅列出目录 xff0c 下面是 4 种不同的方法 1 利用 ls 命令的 d 选项 xff1a ls d Desktop pic shell src 2 利用 ls 命令的 F 选项 xff1a ls
  • 容器00-使用docker安装运行httpd

    ubuntu 16 04安装docker span class hljs comment apt get install docker io span ubuntu启动docker服务 span class hljs comment ser
  • 关于Tkinter使用多进程后打包成exe弹出多个相同窗口的解决方案

    关于Tkinter使用多进程后打包成exe弹出多个相同窗口的解决方案 在编写线路切换程序时 xff0c 由于需要登录不同的网络设备上 xff0c 所以必须使用多进程而不能使用多线程 xff0c 但是在打包成exe后运行发现使用几个进程就弹出
  • JSON处理的Java API(JSR-353)–流API

    Java很快将具有一组标准的API xff0c 作为Java EE 7的一部分处理JSON 此标准定义为JSR 353 JSON处理的Java API xff08 JSON P xff09 xff0c 目前正在最终批准投票中 JSON P提
  • 以梦为码,最燃的华为开发者大会2020(Cloud)有这些看点

    Write the Code xff0c Change the World 以梦为码 xff0c 这的确是开发者最好的时代 在全球ICT产业遇上几十年未有之大变局之际 xff0c 开发者的重要性与价值毋庸置疑 正如华为公司高级副总裁 Clo
  • Hisat2 比对到参考基因组

    比对的流程 xff1a 建立索引 比对到参考基因组 SAM转BAM文件 BAM建立索引 1 准备参考基因组 建立索引 参考基因组准备 注意参考基因组版本信息 下载 xff0c Ensembl xff1a http asia ensembl
  • oh-my-posh安装过程问题及注意事项

    在通过官方的安装命令后在个人用户的环境变量中有oh my posh的环境变量 但即使已经装配了环境变量 xff0c 在powershell中输入oh my posh依然会出现未识别问题 这个问题的解决方法是 通过管理员模式进入 然后就会发现
  • 阿里巴巴2014校招笔试题-2013年9月14日

    不得不吐槽 xff0c 阿里真是太混乱了 xff0c 北京的笔试在考场等了两个半小时 xff0c 考卷都没运到考场 xff0c 64 阿里巴巴集团校园招聘 回应说 xff1a 北京的同学们 xff0c 简单解释下 xff0c 为了试卷的保密
  • Android 如何通过拨号盘暗码启动你的应用

    原文地址 xff1a https blog csdn net zhenbohuang article details 76138790 手机上通常都有一些暗码来启动一些隐藏的功能 最常见的就是在拨号盘输入 06 来查看imei号 那么自己开
  • 简单说说容器/沙盒(Sandbox)以及Linux seccomp

    如果应用程序逻辑有误 xff0c 会造成操作系统崩溃 这句话其实不对 如果一个应用程序都能让一个操作系统崩溃了 xff0c 那这一定是这个系统在设计上或者实现上的BUG xff01 再次重申 xff0c 我不知道谭浩强的C语言教材现在是怎么