Ceph优化系列（一）：Ceph架构及性能优化

2023-11-19

转载：Ceph架构及性能优化

对分布式存储系统的优化离不开以下几点：

1. 硬件层面

硬件规划

SSD选择

BIOS设置

2. 软件层面

Linux OS

Ceph Configurations

PG Number调整

CRUSH Map

其他因素

硬件层面

1、 CPU

ceph-osd进程在运行过程中会消耗CPU资源，所以一般会为每一个ceph-osd进程绑定一个CPU核上。

ceph-mon进程并不十分消耗CPU资源，所以不必为ceph-mon进程预留过多的CPU资源。

ceph-msd也是非常消耗CPU资源的，所以需要提供更多的CPU资源。

2、内存

ceph-mon和ceph-mds需要2G内存，每个ceph-osd进程需要1G内存。

3、网络

万兆网络现在基本上是跑Ceph必备的，网络规划上，也尽量考虑分离cilent和cluster网络。网络接口上可以使用bond来提供高可用或负载均衡。

4、 SSD

SSD在ceph中的使用可以有几种架构

a、 ssd作为Journal

b、 ssd作为高速ssd pool(需要更改crushmap)

c、 ssd做为tier pool

5、 BIOS

a、开启VT和HT，VH是虚拟化云平台必备的，HT是开启超线程单个处理器都能使用线程级并行计算。

b、关闭节能设置，可有一定的性能提升。

c、 NUMA思路就是将内存和CPU分割为多个区域，每个区域叫做NODE,然后将NODE高速互联。 node内cpu与内存访问速度快于访问其他node的内存， NUMA可能会在某些情况下影响ceph-osd 。解决的方案，一种是通过BIOS关闭NUMA，另外一种就是通过cgroup将ceph-osd进程与某一个CPU Core以及同一NODE下的内存进行绑定。但是第二种看起来更麻烦，所以一般部署的时候可以在系统层面关闭NUMA。CentOS系统下，通过修改/etc/grub.conf文件，添加numa=off来关闭NUMA。

软件层面

1、 Kernel pid max

echo 4194303 > /proc/sys/kernel/pid_max

2、设置MTU，交换机端需要支持该功能，系统网卡设置才有效果

配置文件追加MTU=9000

3、 read_ahead, 通过数据预读并且记载到随机访问内存方式提高磁盘读操作

echo "8192" > /sys/block/sda/queue/read_ahead_kb

4、 swappiness, 主要控制系统对swap的使用

echo "vm.swappiness = 0"/etc/sysctl.conf ;  sysctl –p

5、 I/O Scheduler，SSD要用noop，SATA/SAS使用deadline

echo "deadline" >/sys/block/sd[x]/queue/scheduler
echo "noop" >/sys/block/sd[x]/queue/scheduler

6、 ceph.conf配置选项

[global]#全局设置
fsid = 88caa60a-e6d1-4590-a2b5-bd4e703e46d9           #集群标识ID 
mon host = 10.0.1.21,10.0.1.22,10.0.1.23            #monitor IP 地址
auth cluster required = cephx                  #集群认证
auth service required = cephx                           #服务认证
auth client required = cephx                            #客户端认证
osd pool default size = 2                             #最小副本数
osd pool default min size = 1                           #PG 处于 degraded 状态不影响其 IO 能力,min_size是一个PG能接受IO的最小副本数
osd pool default pg num = 128                           #pool的pg数量
osd pool default pgp num = 128                          #pool的pgp数量
public network = 10.0.1.0/24                            #公共网络(monitorIP段) 
cluster network = 10.0.1.0/24                           #集群网络
max open files = 131072                                 #默认0#如果设置了该选项，Ceph会设置系统的max open fds
mon initial members = controller1, controller2, compute01 #初始monitor (由创建monitor命令而定)
##############################################################
[mon]
mon data = /var/lib/ceph/mon/ceph-$id
mon clock drift allowed = 1                             #默认值0.05#monitor间的clock drift
mon osd min down reporters = 13                         #默认值1#向monitor报告down的最小OSD数
mon osd down out interval = 600      #默认值300      #标记一个OSD状态为down和out之前ceph等待的秒数
##############################################################
[osd]
osd data = /var/lib/ceph/osd/ceph-$id
osd journal size = 20000 #默认5120                      #osd journal大小
osd journal = /var/lib/ceph/osd/$cluster-$id/journal #osd journal 位置
osd mkfs type = xfs                                     #格式化系统类型
osd mkfs options xfs = -f -i size=2048                  #强制格式化
filestore xattr use omap = true                         #默认false#为XATTRS使用object map，EXT4文件系统时使用，XFS或者btrfs也可以使用
filestore min sync interval = 10                        #默认0.1#从日志到数据盘最小同步间隔(seconds)
filestore max sync interval = 15                        #默认5#从日志到数据盘最大同步间隔(seconds)
filestore queue max ops = 25000                        #默认500#数据盘最大接受的操作数
filestore queue max bytes = 1048576000      #默认100   #数据盘一次操作最大字节数(bytes
filestore queue committing max ops = 50000 #默认500     #数据盘能够commit的操作数
filestore queue committing max bytes = 10485760000 #默认100 #数据盘能够commit的最大字节数(bytes)
filestore split multiple = 8 #默认值2                  #前一个子目录分裂成子目录中的文件的最大数量
filestore merge threshold = 40 #默认值10               #前一个子类目录中的文件合并到父类的最小数量
filestore fd cache size = 1024 #默认值128              #对象文件句柄缓存大小
journal max write bytes = 1073714824 #默认值1048560    #journal一次性写入的最大字节数(bytes)
journal max write entries = 10000 #默认值100         #journal一次性写入的最大记录数
journal queue max ops = 50000  #默认值50            #journal一次性最大在队列中的操作数
journal queue max bytes = 10485760000 #默认值33554432   #journal一次性最大在队列中的字节数(bytes)
osd max write size = 512 #默认值90                   #OSD一次可写入的最大值(MB)
osd client message size cap = 2147483648 #默认值100    #客户端允许在内存中的最大数据(bytes)
osd deep scrub stride = 131072 #默认值524288         #在Deep Scrub时候允许读取的字节数(bytes)
osd op threads = 16 #默认值2                         #并发文件系统操作数
osd disk threads = 4 #默认值1                        #OSD密集型操作例如恢复和Scrubbing时的线程
osd map cache size = 1024 #默认值500                 #保留OSD Map的缓存(MB)
osd map cache bl size = 128 #默认值50                #OSD进程在内存中的OSD Map缓存(MB)
osd mount options xfs = "rw,noexec,nodev,noatime,nodiratime,nobarrier" #默认值rw,noatime,inode64  #Ceph OSD xfs Mount选项
osd recovery op priority = 2 #默认值10              #恢复操作优先级，取值1-63，值越高占用资源越高
osd recovery max active = 10 #默认值15              #同一时间内活跃的恢复请求数 
osd max backfills = 4  #默认值10                  #一个OSD允许的最大backfills数
osd min pg log entries = 30000 #默认值3000           #修建PGLog是保留的最大PGLog数
osd max pg log entries = 100000 #默认值10000         #修建PGLog是保留的最大PGLog数
osd mon heartbeat interval = 40 #默认值30            #OSD ping一个monitor的时间间隔（默认30s）
ms dispatch throttle bytes = 1048576000 #默认值 104857600 #等待派遣的最大消息数
objecter inflight ops = 819200 #默认值1024           #客户端流控，允许的最大未发送io请求数，超过阀值会堵塞应用io，为0表示不受限
osd op log threshold = 50 #默认值5                  #一次显示多少操作的log
osd crush chooseleaf type = 0 #默认值为1              #CRUSH规则用到chooseleaf时的bucket的类型
##############################################################
[client]
rbd cache = true #默认值 true      #RBD缓存
rbd cache size = 335544320 #默认值33554432           #RBD缓存大小(bytes)
rbd cache max dirty = 134217728 #默认值25165824      #缓存为write-back时允许的最大dirty字节数(bytes)，如果为0，使用write-through
rbd cache max dirty age = 30 #默认值1                #在被刷新到存储盘前dirty数据存在缓存的时间(seconds)
rbd cache writethrough until flush = false #默认值true  #该选项是为了兼容linux-2.6.32之前的virtio驱动，避免因为不发送flush请求，数据不回写
              #设置该参数后，librbd会以writethrough的方式执行io，直到收到第一个flush请求，才切换为writeback方式。
rbd cache max dirty object = 2 #默认值0              #最大的Object对象数，默认为0，表示通过rbd cache size计算得到，librbd默认以4MB为单位对磁盘Image进行逻辑切分
      #每个chunk对象抽象为一个Object；librbd中以Object为单位来管理缓存，增大该值可以提升性能
rbd cache target dirty = 235544320 #默认值16777216    #开始执行回写过程的脏数据大小，不能超过 rbd_cache_max_dirty

7、 PG Number

PG和PGP数量一定要根据OSD的数量进行调整，计算公式如下，但是最后算出的结果一定要接近或者等于一个2的指数。

Total PGs = (Total_number_of_OSD * 100) / max_replication_count

例：

有100个osd，2副本，5个pool

Total PGs =100*100/2=5000

每个pool 的PG=5000/5=1000，那么创建pool的时候就指定pg为1024

ceph osd pool create pool_name 1024

8、修改crush map

Crush map可以设置不同的osd对应到不同的pool，也可以修改每个osd的weight

配置可参考：http://linuxnote.blog.51cto.com/9876511/1790758

9、其他因素

ceph osd perf

通过osd perf可以提供磁盘latency的状况，如果延时过长，应该剔除osd

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ceph

Ceph优化系列（一）：Ceph架构及性能优化的相关文章

Ceph — 使用cephadm搭建Ceph集群

文章目录准备安装 cephadm部署集群本文将通过cephadm工具来学习如何简单地搭建一个octopus版集群准备服务器主机名iposcpu 内存数据盘mgr 01192 168 2 15Centos7 72C4G无node 0
Ceph 源码编译

BUILD THE SOURCE FIRST TIME Ceph uses Python Sphinx which is generally distribution agnostic The first time you build Ce
Ceph 配置URL访问s3 Bucket

一创建json文件 xff0c 用于编辑policy xff0c 文件内容如下 xff08 Version并不重要 xff09 xff0c Action存在多种选择如步骤三所示 xff0c 并且允许同时选择多个 xff0c 本文只是通过
Ceph部署

1 简介 Ceph是一个高性能可扩容的分布式存储系统 xff0c 它提供三大功能 xff1a 对象存储 xff1a 提供RESTful接口 xff0c 也提供多种编程语言绑定兼容S3 Swift块存储 xff1a 由RBD提供 xff0
Ceph运维操作

1 操控集群 1 1 UPSTART Ubuntu系统下 xff0c 基于ceph deploy部署集群后 xff0c 可以用这种方法来操控集群列出节点上所有Ceph进程 xff1a start ceph all 启动节点上特定类型的Ce
k8s部署Ceph

1 Helm部署 1 1 简介为了将Ceph部署到K8S集群中 xff0c 可以利用ceph helm项目目前此项目存在一些限制 xff1a public和cluster网络必须一样如果Storage的用户不是admin xff0c 你
Ceph文件存储-挂载文件系统

文章目录 1 创建文件系统1 1 方法11 2 方法2 2 挂载文件系统3 卸载 1 创建文件系统 1 1 方法1 span class token number 1 span 创建存储池 ceph osd pool create tgmf
CentOS8联网部署Ceph-Quincy集群

文章目录 1 环境准备1 1 关闭selinux1 2 关闭防火墙1 3 配置免密1 4 设置yum源1 5 安装依赖1 6 设置时间同步1 7 安装docker 2 安装Ceph2 1 安装cephadm2 2 部署ceph集群2 3 集
Learning Ceph

Author 海峰 http weibo com 344736086 参考章宇兄的开源项目学习ABC的方法来对ceph进行简单的学习与分析下面是分析过程中画的图片
Ceph 存储池命令以及数据压缩

文章目录一存储池操作 1 1 常用命令 1 2 删除存储池 1 3 存储池配额 1 4 存储池可用参数二存储池快照 2 1 创建快照 2 2 验证快照 2 3 回滚快照 2 4 删除快照三数据压缩 3 1 启用压缩并指定压缩算法
ceph-pg状态详解

Creating 含义 PG正在创建引起原因创建pool的时候根据指定的pg数量进行创建pg时出现的状态正常状态后果无解决方案无需解决正常状态之一Peering 含义 PG之间进行互联就其中的对象和元数据状态达成一致引
【分布式】ceph存储

目录一存储基础单机存储设备单机存储的问题商业存储解决方案二分布式存储软件定义的存储 SDS 分布式存储的类型 Ceph 优势 Ceph 架构 Ceph 核心组件 Pool中数据保存方式支持两种类型 Pool PG 和 OSD
k8s进阶篇-云原生存储ceph

第一章 Rook安装 rook的版本大于1 3 不要使用目录创建集群要使用单独的裸盘进行创建也就是创建一个新的磁盘挂载到宿主机不进行格式化直接使用即可对于的磁盘节点配置如下做这个实验需要高配置每个节点配置不能低于2核4G k
ceph分布式文件存储性能调优

ceph分布式文件存储性能调优一硬件调优二 BIOS配置三网络配置四 OS配置五硬盘调度算法六软件层面七 ceph参数调优一硬件调优 1 NVMe SSD 调优目的为减少数据跨片开销方法将NVMe SSD与
sgdisk基本用法

sgdisk基本用法简介 sgdisk是Linux下操作GPT分区的工具就像fdisk是操作MBR分区的工具关于GPT和MBR的区别请参考 http www anchor com au blog 2012 10 the differe
基于dmclock分布式限流策略

结合Cepb自身的特点较为合理的做法是将QoS机制直接嵌入每个OSD中来实现 dmclock基本原理 mclock算法 mClock基本原理主要包含以下两个方面 1 为客户端设置一套QoS模板并在每个1 0请求中携带该QoS模板 2 服
删除 Ceph 集群里的某个节点的全部OSD （2 of 3）

前言如果你的ceph集群的数据只存在在该节点的所有OSD上删除该节点的OSD会导致数据丢失如果集群配置了冗余replication或者EC 需要做pg 修复出于数据安全考虑请一定一定一定备份好你要删除的OSD上的数据这里一
Linux OOM机制&线上osd异常kill

一引言某日早上收到邮件告警信息上报pg stale以及recovery信息于是登录系统运维二排查解决登录系统后发现系统已恢复正常按照正常来讲并无影响但系统既已出现recovery信息意味着一定有osd down发生于是
Ceph入门到精通-smartctl 查看硬盘参数

smartctl 参数含义 Model Family Toshiba s Enterprise Capacity HDD Device Model TOSHIBA MG08ACss Serial Number sssssss LU WWN
单节点集群（minikube）上的 rook ceph 中的 1 pg 规模过小运行状况警告

我正在将 rook ceph 部署到 minikube 集群中一切似乎都正常我向虚拟机添加了 3 个未格式化的磁盘并已连接我遇到的问题是当我运行 ceph status 时我收到一条健康温暖消息告诉我 1 pg 尺寸不足我到底

随机推荐

SpringBoot配置多个Redis数据源

一添加依赖
type traits浅析

1 G2 9的type trait G2 9的type trait用一个泛化类模板来定义各种类型的属性默认都是假的然后给每一种类型都添加了偏特化版本这样的缺点是每写一个类都要添加一个偏特化的模板类十分麻烦 2 C 改进的type
渗透：vulnhub DC系列之DC1

DC系列之DC1 一靶机配置及说明下载地址 https www vulnhub com entry dc 1 292 靶机 DC1 VMware IP 192 168 49 152 攻击机 kali2018 IP 192 168 49
姿态估计与人体动作识别的多任务深度学习模型

最近在做一个人体康复训练的项目一开始考虑到人体康复训练需要肢体的细微动作所以先使用人体姿态估计识算法提取骨骼点再根据人体骨骼点来识别动作后来发现也不一定这样并组合成一个端对端的模型正好找到了最近的一篇论文 2D 3D Pose
使用QFile进行文件操作（QFile可以使用FILE *指针，还必须指定AutoCloseHandle）

QFile类我我们提供了操作文件的常用功能它是一种io设备可以用来读写文本文件和二进制文件也可以用来读写Qt的资源文件 QFile类可以单独使用该类本身提供了read write函数但更方便的方式是将QFile和QTextStr
毕业设计 2023-2024年最新软件工程专业毕设选题题目推荐汇总

文章目录 0 简介 1 如何选题 2 最新软件工程毕设选题 0 简介学长搜集分享最新的软件工程业专业毕设选题难度适中适合作为毕业设计大家参考学长整理的题目标准相对容易工作量达标题目新颖 1 如何选题最近非常多的学弟学妹问学
dell笔记本怎么开启虚拟化_dell台式电脑bios设置u盘启动的三种操作教程

最近有小编发现有很多的网友朋友们并不知道dell怎么进入bios 为什么这么说呢因为每个品牌怎么进入bios是不一样的现在戴尔用户越来越多不知道dell怎么进入bios的用户接下来小编教你dell台式电脑bios设置u盘启动的三种操
uni-table多选获取当前行数据

废话不多说直接上代码
connect()函数

connect 用于建立与指定socket的连接头文件 include
RabbitMQ消息队列基础点

消息队列为什么使用消息队列 1 解耦 2 异步 3 削峰消息队列的缺点各种消息中间件的区别消息丢失如何保证消息的顺序性如何解决消息队列的延时以及过期失效问题消息队列满了以后该怎么处理有几百万消息持续积压几小时说说怎么解决
安装bs4时出现问题

安装bs4时出现问题 C Users xxia gt pip install bs4 Collecting bs4 Using cached bs4 0 0 1 tar gz 1 1 kB Preparing metadata setup
DTCC 2023丨云原生环境下，需要什么样的 ETL 方案？

2023年8月16日 18日第14届中国数据库技术大会 DTCC 2023 于北京隆重召开拓数派受邀参与本次大会 PieCloudDB 技术专家邱培峰在大会做了云原生虚拟数仓 PieCloudDB ETL 方案设计与实现的主题演讲
react脚手架配置别名并自动提示[VSCode]

1 安装三方库 craco craco yarn add craco dev npm install craco craco save dev 2 配置craco config js const path require path modu
idea调整代码标签编辑器标签editor tabs的横排和竖排

第一找到任意一个文件鼠标右击然后选择Configure Editor Tabs 如下图所示第二在tab placement中选择top left right bottom等即可调整标签位置最后点击apply完成设置最后结果如下图
python中，获取字符串的长度

说明与其他的语言一样有时候需要查看或者说计算字符串的长度在此记录下python中通过哪个函数实现操作过程 1 通过len 函数返回字符串的长度 gt gt gt text python gt gt gt len text 6 gt
投资不能只看概念，也要尝试使用

目前越来越多的行业开始应用聊天机器人ChatGPT 其中一款免费的国内网站多御浏览器提供了安全快速高效稳定的浏览器体验该网站不仅提供了许多实用工具包括当下非常流行的ChatGPT 也为开发人员和初学者提供了方便的在线工具解决方
《Web安全基础》02. 信息收集

web 1 CDN 绕过 1 1 判断是否有 CDN 服务 1 2 常见绕过方法 1 3 相关资源 2 网站架构 3 WAF 4 APP 及其他资产 5 资产监控本系列侧重方法论各工具只是实现目标的载体命令与工具只做简单介绍其使用另
数据库数据导入的基本操作

数据库数据导入的步骤开发工具与关键技术数据库作者邱慧敏撰写时间 2019 01 27 数据库最基本的操作就是如何导入数据第一步打开登录数据库第二步鼠标右键数据库然后点击新建数据库第三步编程数据库名称可更改路
C++容器排序算法的简单应用

功能实现 1 去掉所有重复的单词 2 按照单词的长度进行排序 3 统计长度等于或者超过6个字符的单词个数 4 按照单词的长度顺序进行输出 include
Ceph优化系列（一）：Ceph架构及性能优化

转载 Ceph架构及性能优化对分布式存储系统的优化离不开以下几点 1 硬件层面硬件规划 SSD选择 BIOS设置 2 软件层面 Linux OS Ceph Configurations PG Number调整 CRUSH Map 其他因

Ceph优化系列（一）：Ceph架构及性能优化

Ceph优化系列（一）：Ceph架构及性能优化 的相关文章

随机推荐

热门标签

Ceph优化系列（一）：Ceph架构及性能优化的相关文章