CPU 百分比超过 100 的 Docker 统计信息

2024-04-01

我有一个关于 docker stats 命令的问题，如果有人可以帮助我。我是 Docker 领域的新手，我想监控 docker 容器的 cpu 使用情况。

物理机有 8 个核心（CPU0...CPU7）。我已经创建了一个容器，并使用以下命令将其 cpu 资源限制为 1 个核心 (CPU0)： docker run -itd --cpuset-cpus=0 -p 8081:8080 binfalse/bives-webapp

我通过从 Jmeter 发送请求来对容器施加压力，然后通过 docker stats 命令监控容器的 CPU 使用情况，该命令给出的值大于 100%。

我不明白为什么即使只有一个核心分配给容器，它也会给出超过 100% 的结果！你知道原因吗？这个cpu值是否代表了除了容器之外的一些系统进程的cpu使用率？

在此先感谢您的帮助。

码头工人版本：客户：版本：17.06.0-ce API版本：1.30 Go版本：go1.8.3 Git 提交：02c1d87 建成时间：2017 年 6 月 23 日星期五 21:23:31 操作系统/架构：linux/amd64

服务器：版本：17.06.0-ce API版本：1.30（最低版本1.12） Go版本：go1.8.3 Git 提交：02c1d87 建成时间：2017 年 6 月 23 日星期五 21:19:04 操作系统/架构：linux/amd64 实验：真实

码头工人信息结果：容器：2 跑步：1 暂停：0 已停止：1 图片：10 服务器版本：17.06.0-ce 存储驱动：aufs 根目录：/var/lib/docker/aufs 支持文件系统：extfs 目录：141 Dirperm1 支持：true 日志记录驱动程序：json-file Cgroup 驱动程序：cgroupfs 插件：音量：本地网络：桥接主机 ipvlan macvlan null 覆盖日志：awslogs fluidd gcplogs gelf Journald json-file logentries splunk syslog 群：不活跃运行时：runc 默认运行时：runc 初始化二进制文件：docker-init 容器版本：cfb82a876ecc11b5ca0977d1733adbe58599088a runc版本：2d41c047c83e09a6d61d464906feb2a2f3c52aa4 初始化版本：949e6fa 安全选项：阿帕莫尔安全计算配置文件：默认内核版本：4.4.0-98-generic 操作系统：Ubuntu 16.04.2 LTS 操作系统类型：linux 架构：x86_64 CPU：8 总内存：15.56GiB 名称： logti048131 ID: RHOG:IR6N:FVC4:YDI5:A6T4:QA4Y:DDYF:7HZN:AI3L:WVLE:BNHY:6YNV Docker 根目录：/var/lib/docker 调试模式（客户端）： false 调试模式（服务器）： false 注册表：https://index.docker.io/v1/ https://index.docker.io/v1/实验：真实不安全的注册表： 127.0.0.0/8 启用实时恢复： false

警告：不支持交换限制

在 Linux 上，cgroups 和 Docker CPU 统计数据处理 CPU 的“时间片”，即 CPU 已使用的纳秒数。要获取百分比，请将容器 cgroup 的“已用时间”值与“可用时间”的整体系统值进行比较：/proc/stat.

由于存储的“时间片”值是累积的，因此将当前值与先前收集的值进行比较以获得更瞬时的百分比。我认为这种比较是问题的基础。

统计数据收集

The docker stats命令实际上在客户端中为这些信息做了很多跑腿工作。客户端查询所有容器，监视容器启动/停止的事件以及打开个人统计数据流 https://docs.docker.com/engine/api/v1.33/#operation/ContainerStats对于每个正在运行的容器。这些容器统计数据流用于计算百分比 https://github.com/docker/cli/blob/1401d5daf2f49a97791487dd5c5a8598907f0bf1/cli/command/container/stats_helpers.go#L168-L185在流中的每个统计数据转储上。

对于容器统计数据流，Docker 守护进程收集系统使用的CPU时间 https://github.com/moby/moby/blob/76531ccdeb5850156150b88c6a4a56bb8c35dc44/daemon/stats/collector.go#L75第一的。然后它使用 libcontainer 来读入容器 cgroup 文件并将文本解析为值 https://github.com/opencontainers/runc/blob/52454cf90807727923b375afd7d84ac8fd523959/libcontainer/cgroups/fs/cpuacct.go#L72。这里有所有统计数据结构 https://github.com/opencontainers/runc/blob/7139b61f7fdb904d0acb8db825709aa8d2d2ef36/libcontainer/cgroups/stats.go。然后将其作为 JSON 响应发送到客户端进行处理。

我相信至少部分问题源于阅读和解析/proc/stat不同时间的系统信息和容器 cgroup 统计信息。每当读取容器信息的 goroutine 延迟一点时，与系统相比，该样本中会包含更多的纳秒。由于收集过程计划每 X 秒运行一次，因此下一次读取将包含更少的总纳秒，因此这些值可以在繁忙的系统上反弹，然后回落相同的量，因为第二次读取中没有包含完整的“刻度”样本。

运行的容器越多，系统就越繁忙，这个问题就会变得更加复杂。统计数据收集和转发给客户端似乎是一个相对重量级的过程，只是docker stats大量容器足以导致更多的不准确性。我最好的猜测是所有试图读取统计数据的 goroutine 中存在争用。我不确定这是否能解释 Docker 显示的不准确程度。我要么完全错了，要么还有其他问题加剧了这个问题。

Linux cgroup

每个 Docker 容器的使用情况都在cgroup https://en.wikipedia.org/wiki/Cgroups。 CPU记账信息可以通过cgroup文件系统查看：

→ find /sys/fs/cgroup/cpuacct/docker -type d
/sys/fs/cgroup/cpuacct/docker
/sys/fs/cgroup/cpuacct/docker/f0478406663bb57d597d4a63a031fc2e841de279a6f02d206b27eb481913c0ec
/sys/fs/cgroup/cpuacct/docker/5ac4753f955acbdf38beccbcc273f954489b2a00049617fdb0f9da6865707717
/sys/fs/cgroup/cpuacct/docker/a4e00d69819a15602cbfb4f86028a4175e16415ab9e2e9a9989fafa35bdb2edf
/sys/fs/cgroup/cpuacct/docker/af00983b1432d9ffa6de248cf154a1f1b88e6b9bbebb7da2485d94a38f9e7e15

→ cd /sys/fs/cgroup/cpuacct/docker/f0478406663bb57d597d4a63a031fc2e841de279a6f02d206b27eb481913c0ec
→ ls -l
total 0
-rw-r--r--    1 root     root             0 Nov 20 22:31 cgroup.clone_children
-rw-r--r--    1 root     root             0 Nov 20 04:35 cgroup.procs
-r--r--r--    1 root     root             0 Nov 20 21:51 cpuacct.stat
-rw-r--r--    1 root     root             0 Nov 20 21:51 cpuacct.usage
-r--r--r--    1 root     root             0 Nov 20 22:31 cpuacct.usage_all
-r--r--r--    1 root     root             0 Nov 20 21:51 cpuacct.usage_percpu
-r--r--r--    1 root     root             0 Nov 20 22:31 cpuacct.usage_percpu_sys
-r--r--r--    1 root     root             0 Nov 20 22:31 cpuacct.usage_percpu_user
-r--r--r--    1 root     root             0 Nov 20 22:31 cpuacct.usage_sys
-r--r--r--    1 root     root             0 Nov 20 22:31 cpuacct.usage_user
-rw-r--r--    1 root     root             0 Nov 20 22:31 notify_on_release
-rw-r--r--    1 root     root             0 Nov 20 22:31 tasks

→ cat cpuacct.usage_percpu
3625488147 6265485043 6504277830

每个值都是该 CPU 上的累积使用量（以纳秒为单位）。

→ grep -w ^cpu /proc/stat
cpu  475761 0 10945 582794 2772 0 159 0 0 0

这里的值是USER_HZ http://man7.org/linux/man-pages/man5/proc.5.html== 1/100 秒，因此在 Docker 中进行一些转换。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)