数据存储方式有哪些?这3种数据存储方式了解吗?

2023-05-16

数据存储具有很强的现实意义,只有采取合理的数据存储方式,才能够有利于数据的管理、检索等。为增进大家对数据存储方式的认识,本文将对三种数据存储方式予以介绍。如果你对数据存储方式具有兴趣,不妨继续往下阅读哦。

数据存储在实际应用中,就是怎么用数据库把我们的业务数据保存起来。从宏观角度看,大致包含三大类技术:B-TREE,LSM&SSTable,列式存储。

一、B-TREE

B-TREE和关系模型同步出现于70年代,到90年几乎占领了所有的数据库市场。B-TREE简单的理解就是多叶节点的树,每个叶节点并非是每行数据,而是数据库的的数据块。这么设计的原因是树的层次影响着搜索性能,而且磁盘的读写是基于块(BLOCK)的,使用块可以大大减少节点数量,进而减少树的层次。

B-TREE的特点在于读写性能比较稳定,响应时间和磁盘随机读写的时间成正比(10ms)。并且由于B-TREE对应到数据库的每条记录,可以很容易的实现事务、行锁和隔离级别。读性能略高于LSM算法。而且B-TREE基于块的存储方式,可以很容易的把内存中的块和磁盘上的块一一对应起来,很容易的实现缓存。在实际应用中,前2-3级节点内都可以在缓存中读取,由此大大提高了访问效率。

而不足在于真正面对海量数据时(如数据量进入到百亿级别时),由于树层数和缓存比率的减少,会导致性能逐步下降。此外由于B-TREE在写入时也需要通过搜索定位到叶节点,因此相对于LSM,其写入时开销较大。PS:其实现在已经出现了分布式的B-TREE,比如oracle的localeindex。

二、LSM&SSTable

目前主流的存储架构还是磁盘+内存,磁盘顺序读写的性能高于随机读写三个数量级,而在内存中进行随机读写的的性能也大于磁盘的三个数量级,可以得出用磁盘当做磁带一样只做顺序读写,而把内存当做磁盘,提供所有的随机读写访问的总体思想,这也就是出LSM-Tree的算法。

简单说就是在内存中维护一张MemTable,把所有最新的数据都写到其中,所有数据依据key值进行排序(随机读写)。当MemTable的大小到大阈值之后,把它写到磁盘上,形成一个个的SSTable(顺序写)。每个SSTable构造一个索引,由于SSTable中的数据都是排好序的,所以索引较小,可以保存在内存里面,所以所有的索引搜索动作都是在内存进行的(随机读)。

每次查找的过程如下:首先在MemTable中搜索(内存随机查找),如果没有依次在每个SSTable的索引中查找(内存随机查找)。把查找从磁盘随机动作变成了基于内存的随机动作。随着SSTable的增多,搜索的次数会增加,为了提高性能,后台会把多个SSTable合并为一个(如HBase、LevelDB等等)。并且提供布隆过滤器(BloomFilter)来过滤掉不需要的SSTable。从总体效果上看,写入的效率大大高于基于B-Tree的存储引擎,而读取性能接近于B-Tree。

LSM&SSTable在写入密集型应用中有较大优势,同时在读取方面也有不错的表现。不足之处在于上面提到的,不定期对增加的SSTable进行合并时,对于数据库会产生一定压力。

由于这些特点,LSM&SSTable大量应用于许多组件中,比如HBase、LevelDB等KeyValue数据库中,同时也在消息引擎Kafka和搜索引擎Solr使用。

三、列式存储

以上两种存储引擎主要适合于联机场景,如有大量的基于客户各类行为数据的批量计算的推荐系统中,以及预计客户的流动性缺口等等。在这些场景中,列式存储在性能上有非常明显的优势。随着各类大数据应用的扩展,列式存储从和Hive共生的ORC,到和Spark共生的Parquet也被应用到了各个数据分析应用中。

从传统的数据分析类应用,到人工智能应用,都需要遍历整个数据集,上面也提到磁盘在顺序读写和随机读写性能方面的巨大差距,所以所有的数据仓库都会在全表遍历中采用磁盘顺序遍历。所以遍历的文件空间越小,性能越高。列式存储按列对数据进行保存,以减少数据库每次访问的文件尺寸。

首先,分析应用一般局限于对于表中的部分字段都分析,列是存储可以让引擎只访问部分字段,减少吞吐量。其次,列式存储数据压缩能力更强。因为行级别的存储方式压缩是基于数据块,压缩比大致为50%-70%左右,而且压缩比越大,解压缩对于CPU的占用也越大。由于单列内的数据非常类似,尤其是各种码值类的数据,比如性别(男、女、其他),行数越多,压缩比越大。10亿客户的性别,也可以简单的表达为如下这样:“连续100个男性、连续50个女性、又连续80个男性、连续70个女性”,按照每行的位置依次表达下去。

再次,同样由于列内数据的取值范围有限,也可通过位图来表达,比如10表示男,01表示女,因此只用2个bit就可以表示出来,从而进一步增加压缩比。在在许多场景中能够把以前数G的数据压缩为几百K。由此可以显著降低批量计算时对于存储的吞吐压力和提升计算效率。

当然列式存储也并非完美,在更新时列式存储相对行式存储,很难直接做到就地修改的效果,往往需要把整列锁住,重新计算,重新生成整个列。所以列式存储更多的适合于数据分析时需要全表遍历的场景。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据存储方式有哪些?这3种数据存储方式了解吗? 的相关文章

  • 2020.2.22 排位赛 G - Bucket Brigade(BFS)

    Bucket Brigade 题面 题目分析 BFS模板题 代码 span class token macro property span class token directive keyword include span span cl
  • Canal入门(二)

    Canal入门 xff08 二 xff09 canal kafka quickStart 1 基本说明 canal 1 1 1版本之后 默认支持将canal server接收到的binlog数据直接投递到MQ 目前默认支持的MQ系统有 ka
  • PID调节三个参数的作用

    1 比例调节作用 xff1a 按比例反应系统的偏差 系统一旦出现了偏差 比例调节立即产生调节作用用以减少偏差 比例作用大 可 以加快调节 能迅速反应误差 xff0c 从而减小稳态误差 但是 xff0c 比例控制不能消除稳态误差 过大的比例
  • (centos7)docker+jenkins运行python自动化

    目录 一 实现思路 二 环境准备 1 在liunx上安装docker 2 docker安装jenkins 三 访问前设置 四 配置jenkins容器 五 jenkins插件安装 1 安装git 2 安装docker 3 html Publi
  • OJ在线编程常见输入输出练习

    OJ在线编程常见输入输出练习 4 a 43 b 4 输入描述 xff1a 输入数据包括多组 每组数据一行 每行的第一个整数为整数的个数n 1 lt 61 n lt 61 100 n为0的时候结束输入 接下来n个正整数 即需要求和的每个正整数
  • js中数组与集合的相互转化

    数组 gt 集合 var a 61 1 2 3 4 5 5 var set 61 new Set a console log set 1 2 3 4 5 集合 gt 数组 var set 61 new Set set add 1 set a
  • Linux make/Makefile详解

    会不会写makefile xff0c 从侧面说明了一个人是否具备完成大型工程的能力 一个工程中的源文件不计数 xff0c 其按类型 功能 模块分别放在若干个目录中 xff0c makefile定义了一系列的 规则来指定 xff0c 哪些文件
  • 大疆H20系列吊舱,录制的视频含义

  • 写算法的方法

    写算法步骤 xff1a xff08 以下方法 xff0c 都是老生常谈 但是非常简单有用 xff09 数据结构 xff08 所有的算法都是基于数据结构的操作 所有算法都是针对数据结构的属性进行操作 列出所有的属性 xff0c 写算法逐项修改
  • Windows系统下QT+OpenCasCAD仿真开发

    背景 最近开发了一个六自由度机械臂调姿平台的控制软件 xff0c 集成了API激光跟踪仪和KUKA机器人 xff0c 实现了根据产品的测量位姿驱动仿真环境中模型并且实现模型间的碰撞检测 其中KUKA机器人的控制可以参考笔者以前的博客 xff
  • 飞控IMU姿态估计流程

    飞控中使用加速度计 xff0c 陀螺仪 xff0c 磁罗盘进行姿态估计算法流程 step1 xff1a 获取陀螺仪 xff0c 加速度计 xff0c 磁罗盘的原始数值 step2 xff1a 陀螺仪 xff0c 加速度计减去固定的偏移后得到
  • 图拓扑关系可视化的qt实现

    前言 最近在做数据可视化的相关工作 xff0c 包括曲线图 xff0c 航迹图 xff0c 图结构 xff0c 树结构等 其中树结构相关的工作笔者以前曾经做过 xff0c 可以参考笔者以前的博客 qt自定义树形控件之一和qt自定义树形控件之
  • 基于qwt3D 的3D航迹图的实现

    前言 使用qt实现三维空间直角坐标系中的航迹实时绘制网上很难查到资料 在qt下实现3D绘图通常实现方式有OpenGL VTK qwt3d QtDataVisualization等 Qcharts QCustomPlot只支持2D绘图 这里给
  • 树莓派4b连接RealSense T265

    使用的是树莓派4 8G版本 准备连接RealSense T265的双目相机 T265目前官方编译好的的只有Ubuntu16和18 其他的系统版本需要自己编译realsense驱动 安装ubuntu20 10 https ubuntu com
  • Dockerfile文件解释

    一 先来看一个简单的 Dockerfile 这个Dockerfile作用是打一个python3项目环境 FROM python 3 alpine WORKDIR app ADD app RUN pip3 install r requirem
  • 一文读懂BLOB算法

    算法执行效果 相关参考资料 看着玩的 BLOB算法简述 https blog csdn net icyrat article details 6594574 话说这老哥写的也太 简 了吧 完全口水话 把blob算法说的很神秘 说什么把blo
  • Sobel算法优化 AVX2与GPU

    国庆假期 一口气肝了10篇博客 基本上把最近的成果都做了遍总结 假期最后一天 以一个比较轻松的博客主题结束吧 这次是Sobel算法的AVX2优化 执行效果 sobel算法的原理 使用如下的卷积核 c 硬写 span class token
  • 随机Hough直线算法的改进

    背景介绍 随机Hough直线算法相比Hough直线算法 xff0c 算法效率会有提高 xff0c 但仍不能满足工程需求 因此提出使用生长的随机Hough直线算法 该算法对随机Hough直线算法进行改造 xff0c 在随机选点转到Hough空
  • MATLAB编写的读取.mat文件数据并画曲线图的gui程序

    matlab编写的读取sd卡数据的gui程序 界面截图 xff1a 打开文件界面 xff1a 导入数据后截图 xff1a 是不是高端大气上档次 xff0c 不要急 xff0c 慢慢往下看 xff0c 后面更精彩 xff0c 代码会贴出来的
  • px4飞控位置估计lpe移植到vs

    本文主要内容 px4飞控的位置估计有两种方式 xff0c 一是inav xff0c 二是lpe xff0c 用到的传感器用加速度计 xff0c 磁场传感器 xff0c gps xff0c 超声 xff0c 激光 xff0c 气压 xff0c

随机推荐

  • 常见的信号平滑处理方法

    本文介绍了常见的信号平滑处理方法 xff1a xff08 一阶滤波 xff0c 互补滤波 xff0c 卡尔曼滤波 xff09
  • PX4代码学习系列博客(1)——开发环境配置

    写在前面 虽然有很多关于px4博客 xff0c 但还是想自己亲手写 xff0c 一来记录自己的学习过程 xff0c 以备将来复习 xff0c 二来方便后来者参考学习 xff0c 好多西当然要大家分享 关于px4飞控程序的博客 xff0c 我
  • PX4代码学习系列博客(3)——px4固件目录结构和代码风格

    写在前面 px4不是普通的单片机程序 xff0c 其中没有main函数 它实际上是一个操作系统 xff0c 上面运行着很多应用程序 xff08 类比windows xff09 xff0c 比如姿态解算 xff0c 位置解算 xff0c 姿态
  • PX4代码学习系列博客(5)——在px4中添加自己的模块

    怎么在px4中添加自己的模块 在 px4固件目录结构和代码风格 这一节 xff0c 曾经说过NuttX是一个实时的嵌入式系统 xff0c 上面可以像windows那样运行程序 那既然是应用程序 xff0c 那我们应该也能写一些可以在Nutt
  • PX4代码学习系列博客(6)——offboard模式位置控制代码分析

    分析offboard模式的代码需要用到以下几个模块 local position estimator mavlink mc pos control mc att control mixer 程序数据走向 mavlink 一般的offboar
  • selenium安装

    一 安装webdriver 1 下载安装包 下载地址 xff1a CNPM Binaries Mirror 注意 xff1a 下载版本应与自己的chrome的大版本一致 chrome版本查看 xff0c 设置 gt 关于chrome xff
  • 基于惯性轮倒立摆原理的自行车

    背景 自平衡车有很多种 xff0c 其中一种是利用惯性轮倒立摆原理 xff0c 早在2003年 xff0c 日本的村田顽童就已经问世 xff0c 它采用的就是惯性轮倒立摆原理 后来其他研究组织和个人纷纷效仿 xff0c 制作出了五花八门的基
  • 二维码的特征定位和信息识别

    二维码的特征定位和信息识别 背景介绍 视觉的方法可以用来估计位置和姿态 最容易想到的是在目标上布置多个容易识别的特征 xff0c 这样使用opencv相机标定和 相机畸变矫正 轮廓提取 solvepnp来获取目标相对于相机的位姿 在实际使用
  • 学生作业信息管理系统

    一 xff0e 引言 1 1编写目的 首先 xff0c 软件系统的设计报告可以出用户提出的模糊需求分析出具体的工程需求 xff0c 并转化为数据流图 xff0c 程序流程图 xff0c 模块图 xff0c 数据库设计等软件设计必要的底层步骤
  • NVIDIA显卡驱动版本,CUDA版本,cudnn版本之间关系及如何选择

    要配置NVIDIA显卡的CUDA和cudnn xff0c 各种版本之间的依赖关系以及与其他使用GPU的库版本兼容一直没有弄明白 xff0c 最近经过多次卸载重装 xff0c 终于成功配置好了显卡计算环境 xff0c 于是把各个驱动程序和库之
  • 机器人定位误差标定模型

    概述 以工业机器人为基础 xff0c 构建柔性制造单元或柔性生产线 xff0c 实现产品自动化 柔性化 智能化生产必将成为现代制造发展的重点 新型产业环境下 xff0c 工业机器人的应用范围将越来越广泛 作业任务也将越来越精细复杂 xff0
  • 觉得C/C++难懂的、面临找工作面试笔试的,速来看这本书!

    如果你是C C 43 43 的初学者 xff0c 请看这本书 xff0c 因为其他的书也许你看了还不如不看 xff0c 一定要选一本好书 xff1b 如果你正准备求职 xff0c 那么请认真看这本书 xff0c 因为这本书会教会你工作中必备
  • rosdep update错误失败一直timeout解决方法

    更新rosdep 终端输入 rosdep update 失败1 The read operation timed out xff08 包括ERROR unable to process source xff0c ERROR error lo
  • bat, shell脚本ssh自动输入密码

    我电脑是win11 xff0c 并且自带ubuntu系统 xff0c 打开cmd xff0c 然后输入ubuntu xff0c 可以直接进入ubuntu系统 xff0c 然后执行简单的linux命令 我在两个系统下都写了自动连接远程服务的脚
  • FreeRtos 文件结构

    最核心的三个文件 1 xff09 tasks c 2 xff09 list c 3 xff09 queue c tasks c 任务相关 list c 为一个双向链表 queue c 队列 xff0c 信号量用于任务间通讯 4 xff09
  • 论文超详细精读:SMPL: A Skinned Multi-Person Linear Model

    文章目录 前言总览一 Introduction二 Related WorkBlend Skinning xff08 混合蒙皮 xff09 Blend shapes xff08 混合变形 xff09 Learning pose and sha
  • 1、列表推导式、字典推导式

    34 34 34 1 列表推导式 xff1a 作用 快速生成列表 需求1 xff1a 如何快速生成一个 34 data0 34 34 data1 34 34 data99 34 的列表 语法 xff1a y for x in xxx 实现
  • pwm超详细解读,大佬细说pwm的控制方式

    pwm xff0c 也就是常说的脉冲宽度调制脉冲宽度调制技术 目前 xff0c pwm技术的应用是非常多的 为了增进大家对pwm的认识 xff0c 本文将对pwm 的几种控制方法进行详细的阐述 xff0c 保证大家彻底理解 如果你对pwm
  • WiFi信号覆盖面积小?如何扩大Wifi信号覆盖范围?

    WiFi已是现代生活不可缺少的组成之一 xff0c 在WiFi的帮助下 xff0c 一个家庭网络或办公网络 xff0c 能够通过无线的方法连接诸多设备 为增进大家对WiFi的认识 xff0c 本文将对WiFi以及扩大WiFi信号覆盖范围的方
  • 数据存储方式有哪些?这3种数据存储方式了解吗?

    数据存储具有很强的现实意义 xff0c 只有采取合理的数据存储方式 xff0c 才能够有利于数据的管理 检索等 为增进大家对数据存储方式的认识 xff0c 本文将对三种数据存储方式予以介绍 如果你对数据存储方式具有兴趣 xff0c 不妨继续