概念:COW与MOR

2023-11-04

名词解释

COW:写时复制
MOR:读时合并

CopyOnWrite 思想

写时复制(CopyOnWrite,简称COW)思想是计算机程序设计领域中的一种通用优化策略。其核心思想是,如果有多个调用者(Callers)同时访问相同的资源(如内存或者是磁盘上的数据存储),他们会共同获取相同的指针指向相同的资源,直到某个调用者修改资源内容时,系统才会真正复制一份专用副本(private copy)给该调用者,而其他调用者所见到的最初的资源仍然保持不变。这过程对其他的调用者都是透明的(transparently)。此做法主要的优点是如果调用者没有修改资源,就不会有副本(private copy)被创建,因此多个调用者只是读取操作时可以共享同一份资源。

通俗易懂的讲,写时复制技术就是不同进程在访问同一资源的时候,只有更新操作,才会去复制一份新的数据并更新替换,否则都是访问同一个资源。

JDK 的 CopyOnWriteArrayList/CopyOnWriteArraySet 容器正是采用了 COW 思想

COW适用场景

对于一些读多写少的数据,写入时复制的做法就很不错,例如配置、黑名单、物流地址等变化非常少的数据,这是一种无锁的实现。可以帮我们实现程序更高的并发。

COW缺陷

  • 数据一致性问题
    cow这种实现只是保证数据的最终一致性,在添加到拷贝数据但还没进行替换的时候,读到的仍然是旧数据。

  • 内存占用问题
    如果对象比较大,频繁地进行替换会消耗内存,从而引发 Java 的 GC 问题,这个时候,我们应该考虑其他的容器,例如 ConcurrentHashMap

MergeOnRead的思想

读取时合并的思想:新插入的数据存储在delta log 中。定期再将delta log合并进行parquet数据文件。读取数据时,会将delta log跟老的数据文件做merge,得到完整的数据返回。当然,MOR表也可以像COW表一样,忽略delta log,只读取最近的完整数据文件。

对于hudi中的Merge-On-Read Table,整体的结构有点像 LSM-Tree

适用场景

由于写入数据先写delta log,且delta log较小,所以写入成本较低。

MOR缺陷

需要定期合并整理compact,否则碎片文件较多。读取性能较差,因为需要将delta log和老数据文件合并。

基于上述基础概念,Hudi提供了两类表格式COW表和MOR表,他们会在数据的写入和查询性能上有一些不同。

点:cow、mor概念科普
线:Hudi
面:数据湖

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

概念:COW与MOR 的相关文章

  • scala学习-11-package object

    1 概述 Scala 2 8提供包对象 package object 的新特性 什么是包对象呢 按我的理解 根据Scala 一切皆对象 设计哲学 包 package 也是一种对象 既然是对象 那么就应该有属性和方法 也可以在包对象内声明某个

随机推荐

  • Sublime Text3 快速格式化代码

    英文版 打开Sublime软件 PreFerences gt Key Bindings User 如图 添加代码 keys alt shift f command reindent 保存即可 alt shift f 可以自己改为任意键的组合
  • 深入学习jquery源码之is()与not()

    深入学习jquery源码之is 与not is expr obj ele fn 概述 根据选择器 DOM元素或 jQuery 对象来检测匹配元素集合 如果其中至少有一个元素符合这个给定的表达式就返回true 如果没有元素符合 或者表达式无效
  • three.js ThreeBSP(多个模型组合:差集、交集、并集 附带demo) - 05

    文章目录 一 什么是模型运算 1 函数属性介绍 2 代码示例 二 模型组合demo 需要在我的第一节中找到对应的库 或者私信我 2 代码效果 2 1并集效果 2 2 差集效果 2 3 交集效果 一 什么是模型运算 我所理解的ThreeBSP
  • InfluxDB 的 InfluxQL 基本介绍与使用

    前言 本文主要介绍 InfluxDB 的 InfluxQL 的基本概念与用法并且包含了一些需要注意的点 由于 InfluxDB 2 x 不使用 InfluxQL 进行查询 如您的版本大于 2 x 请查找其他资料 主要为以下内容 SELECT
  • Linux-升级CMake版本(Ubuntu18.4)

    一 简介 在一些场景中 因为CMake版本过低而无法编译 此时就需要升级CMake的版本 二 升级 卸载 先卸载旧的cmake sudo apt get autoremove cmake 安装 切换文件夹 cd usr src 下载cmak
  • 数据结构-第三章 栈和队列

    Stack and Queue 栈和队列是逻辑上的结构 在物理上可以用数组和链表来实现 1 栈 A stack is a list in which insertions and deletions take place at the sa
  • 逆向爬虫31 某站刷播放

    逆向爬虫31 某站刷播放 目标 利用爬虫模拟某站视频播放 增加视频的播放量 思考 正常用户是如何为视频增加播放量的 进入视频播放页 点击播放按钮 视频开始播放 就会增加一个播放量 因此我们只需要模拟点击播放按钮时 浏览器对服务器发送的数据包
  • python 字符串True,False转换成布尔值True,False

    字符串True False转换成布尔值True False不能用bool函数 因为得到的结果都是布尔值True 可以写个if判断 if ss True ss True elif ss False ss False
  • MySQL基本命令

    登录mysql hhostname Pport uusername p 比如 mysql hlocalhost P3306 uroot p 主机名 端口号 用户名 密码 同一台服务器上前两个省略 显示所有数据库 show databases
  • zabbix监控nginx状态界面

    文章目录 开启状态界面 监控nginx状态界面 开启状态界面 实例 开启status location status stub status on off allow 172 16 0 0 16 deny all 访问状态页面的方式 htt
  • 编译工具 Ninja 介绍

    什么是Ninja Ninja是使用C 写的开源项目 http martine github io ninja 在Unix Linux下通常使用Makefile来控制代码的编译 但是Makefile对于比较大的项目有时候会比较慢 看看上面那副
  • (手工)【sqli-labs26、26a】拼接注入、过滤后注入

    目录 推荐 一 手工 SQL注入基本步骤 二 Less25 GET Error based All your SPACES and COMMENTS belong to us 2 1 简介 过滤 报错回显 2 2 第一步 注入点测试 2 3
  • 性能测试浅谈

    早期的性能测试更关注后端服务的处理能力 一个用户去访问一个页面的请求过程 如上图 数据传输时间 当你从浏览器输入网址 敲下回车 开始 真实的用户场景请不要忽视数据传输时间 想想你给远方的朋友写信 信件需要经过不同的交通运输工具送到朋友手上
  • Python __init__.py 模块详解

    文章目录 1 概述 2 导入演示 2 1 执行顺序 先父后子 2 2 导入所有模块 含子模块 1 概述 1 工具 Pycharm 场景 在创建一个 Python Package 时 会默认在该包下生成一个 init py 文件 2 目的 进
  • matlab中rem与mod函数的区别

    语法格式 rem x y 求整除x y的余数 mod x y 求模 rem x y x y fix x y fix 向0取整 mod x y x y floor x y floor 向左取整 以数抽为准 朝负无穷方向取整 如果x和y的符号相
  • SQLlite

    SQLlite SQLite是一个软件库 实现了自给自足的 无服务器的 零配置的 事务性的 SQL 数据库引擎 一 什么是 SQLite SQLite是一个进程内的库 实现了自给自足的 无服务器的 零配置的 事务性的 SQL 数据库引擎 它
  • uTools使用技巧

    uTools 提高工作效率 学习效率 启动uTools Alt 空格 关键词 任何系统文件 软件 插件 都可以通过 关键词 快速跳转 快速打开文件 软件 输入 控制面板 选中后就能跳转到 控制面板 同样的 程序与功能 cmd 等系统文件 都
  • 电脑恢复还原文件的各种操作方法

    如果你的电脑因操作不慎丢失了重要的数据 先不要给电脑重装系统 一般来说都是可以根据各种类型去找回这些文件的 这里就和大家介绍一下电脑恢复还原文件的各种操作方法吧 1 首先是U盘和内存卡类型的数据 u盘是我们经常使用的移动储存工具了 在对这些
  • 设计模式——网课学习总结

    面向对象 设计模式七大基本原则 单一职责原则 SRP 一个类的功能要单一 提高内聚性 方法要原子性 开放封闭原则 OCP 对扩展性开放 对修改封闭 最重要 总纲 里氏替换原则 LSP 子类继承父类 子类不要改变父类原有的方法 完成新的功能需
  • 概念:COW与MOR

    名词解释 COW 写时复制 MOR 读时合并 CopyOnWrite 思想 写时复制 CopyOnWrite 简称COW 思想是计算机程序设计领域中的一种通用优化策略 其核心思想是 如果有多个调用者 Callers 同时访问相同的资源 如内