分布式文件与分布式存储系统学习总结(持续更新)

2023-10-27

存储系统知识

Write Ahead Log
  • 问题引入

存储系统在运行过程中,每时每刻都在发生数据更新。如对文件数据的CRUD.

对于中心控制节点来说,这些都会涉及到metadata的更新操作。

为了保持元数据和文件数据的状态一致性,系统所有对数据的操作对应的元数据变更都应该要持久化到元数据db中。

那假如这个metadata db是在外存的,那么是否意味着高频的io操作?是否可以引入延时写入的方法?

Write Ahead Log

核心意思:在把metadata的变更操作写到持久稳定的db之前,会预写入一个log中,然后再由另外的操作把log apply到外部持久的db中。

当系统要处理大量的事务操作的时候,WAL与实时同步db相比效率会更高。

WAL的日志还可以在利于数据库的事务回滚。

WAL执行细节

WAL不记录metadata本身,而是记录进行的操作的log
在这里插入图片描述
数据库的操作记录,首先会写到内存的buffer中,当buffer满或者人工触发flush的时候,会把事务数据写出到WAL的log中。

系统在每次完成一个操作的时候,同时会把改动应用到memory和WAL的buffer内,再由buffer 写到外存的metadata db中。

当老的WAL被apply到元数据db的时候,可以用commitId来标识当前最新的事务。所以整个过程可以理解为做一次checkpoint,即当前db的状态+WAL = 新的db状态

Write ahead log

分布式存储系统知识

分布式存储要解决的问题:

1.数据分布
如何把数据分布到多台服务器才能够保证数据分布均匀?数据分布到多台服务器后,如何实现跨服务器的读写操作?

2.一致性
如何把数据的多个副本复制到多台服务器并且保证一致性?

3.容错
如何检测服务器故障?如何自动把出现故障的服务器的数据和服务迁移到集群中的其他服务器?

4.负载均衡
新增的服务器和集群正常运行过程中如何实现自动负载均衡?数据迁移过程如何保证不影响已有事务?

5.事务与并发控制
如何实现分布式事务?实现多版本并发控制?

6.压缩与解压缩
如何根据数据特点设计合理的压缩算法?

分布式存储分类
  • 非结构化数据

  • 结构化数据

  • 半结构化数据
    介于非结构化数据和结构化数据之间,HTML文档属于半结构化数据。其与结构化数据最大的区别在于,半结构化数据模式结构内容混在一起

分布式文件系统

存储大量的图片,照片,视频等非结构化数据对象,叫做Blob(Big binary object data)

分布式文件系统用于存储Blob对象,块存储或者大文件存储。

我们首先定义分布式文件系统的基本存储单元为数据块chunk

文件系统

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分布式文件与分布式存储系统学习总结(持续更新) 的相关文章

  • ceph学习(3)——rbd-mirror双机热备

    一 概述 本文主要关注于rbd mirror的使用以及使用过程中的遇到的问题 二 环境准备 ceph版本 14 2 16 服务器 3台centos7服务器 ceph1 ceph2 ceph3 硬盘 每台服务器1块10GB以上硬盘做osd 分
  • Shiro

    文章目录 资料 概念 基本功能 架构原理 登录认证 概念 流程 角色授权 概念 流程 代码 大致流程 shiro配置解读 ShiroConfig 登录 认证 授权 详细代码 pom login html index html UserCon
  • 【redis】Redis cluster是AP架构还是CP架构?

    最近刚好在看CAP理论 加上之前分析的redis cluster 就在想redis的cluster是什么模式的 AP还是CP 首先还是简单讲下CAP 具体的可见 CAP分别是 强一致性 Consistency 可用性 Availabilit
  • 主存储器的基本组成

    主存储器的基本组成 存储体 存储体也叫存储矩阵 是由一个个存储0或1的记忆单元 存储元 构成的 为了存取存储体中的信息 必须对存储单元进行编址 编址单位是指具有相同地址的那些存储元件构成的一个单位 常见有按字节编址 寻址访存 CPU首先把被
  • 区块链基本概念(一)

    区块链的基本概念 其概念为 区块链是一个去中心化的分布式数据库 改数据库有一串使用密码学方法产生的数据区块有序连接而成 区块中包含有一定时间内产生的无法被篡改的数据记录信息 区块中包含数据记录 当前区块根哈希 Hash 前一区块根哈希 时间
  • 分布式文件与分布式存储系统学习总结(持续更新)

    存储系统知识 Write Ahead Log 问题引入 存储系统在运行过程中 每时每刻都在发生数据更新 如对文件数据的CRUD 对于中心控制节点来说 这些都会涉及到metadata的更新操作 为了保持元数据和文件数据的状态一致性 系统所有对
  • RPC远程服务调用

    1 基本概念 跨网络 跨进程的方法调用 因为客户端和服务端位于网络上不同的地址 要完成一次rpc调用 则需要以下步骤 首先建立网络连接 建立连接后 双方需要按照某种约定的协议进行网络通信 能正常通信后 服务端收到请求后需要以某种方式处理 处
  • PG概述及OSD对PG状态的影响

    前言 随着分布式存储的广泛应用 目前对PG的关注越来越多 本文基于ONStor分布式存储系统简要介绍一下PG的状态变化 重点说明OSD对PG状态的影响 一 Ceph分布式存储概述 Ceph是一个统一的分布式存储系统 设计初衷是提供较好的性能
  • 真香!27寸三星曲面屏写代码零Bug,包邮送一台!

    最近有粉丝留言让我多搞些抽奖活动 为了感谢大家对本公众号的大力支持本次联合了10个号主 送27寸三星曲面屏显示器 祝所有人新的一年工作顺利 工资芝麻开花节节高 希望本次抽奖可以给你带来好运 生活不易 望大家加倍努力 升职加薪 事业家庭双丰收
  • 区块链分布式存储

    想知道更多区块链技术知识 请百度 链客区块链技术问答社区 链客 有问必答 BAT垄断了互联网创业道路 DAPP成为创投界新趋势 区块链革命引领市场变天 区块链 创业当红 互联网 创业成为经典 Dapp 区块链 应用 将会如何改变我们的互联网
  • 分布式系统常用的模式

    分布式系统常用的模式 Ambassador 名称 大使 模式 介绍 作为应用程序和其他服务的 中间人 负责应用程序和其他服务之间的通信 包括日志 监控或重试处理等任务 举例 K8S使用Envoy作为一个 大使 来简化服务之间的通信 优点 降
  • 深度解密 5 类大数据架构及实现

    前几天读到白发川的一篇文章 对比解读五种主流大数据架构的数据分析能力 文中详细总结了各类数据架构的应用以及原理 作为一名在数据仓库耕耘多年的技术人员 对于其中的一些技术细节还是破解兴趣的 所以随着作者的思路写下了我对主流数据架构的理解 如无
  • SpringBoot下如何实现Redis + Caffeine二级分布式高性能缓存

    一 设计目的 支持Spring Boot 服务下 Redis Caffeine的高性能分布式缓存的实现 减少应用服务的集成接入成本 快速实现缓存 通过AOP方式拦截处理 不侵入原业务逻辑 支持多种功能特性 如异步 超时 全局 单条控制 压缩
  • MIT6.824分布式系统lecture1笔记:Intro,MapReduce

    lecture1先对分布式系统的设计进行了概述 然后介绍了MapReduce的案例 Intro 为什么要使用分布式系统 1 追求高性能 通过分布式系统进行并行计算 2 使系统具有容错性 一台计算机计算错误 可以转移到另一台计算机 3 一些问
  • 【精】HDFS无需重启NN进行动态刷新拓扑信息

    本文实现了一个HDFS的Feature 无需滚动重启Namenode即可实现动态加载机架信息 变更集群网络拓扑和机架感知信息 本文会从功能必要性 实现原理 实现源码 测试结果 以及过程中遇到的问题这几个角度来介绍 通过本文可以get如下知识
  • Redis集群模式使用Lua脚本的限制

    问题复现 ERR bad lua script for redis cluster all the keys that the script uses should be passed using the KEYS array and KE
  • 分布式事务管理(Seata)

    文章目录 1 概述 分布式事务问题 什么是Seata Seata术语 怎么用 Windows安装 Docker安装 MySQL nacos seata 2 配置官网案例 分析业务逻辑 创建数据库 订单模块 建Module POM YML f
  • 多线程实现字典系统(server+client)

    多线程字典系统实现 首先说明下该系统可以实现的功能 小白都可以 该博客只提供学习和实现的思路 如果需要详细的代码 请留言 1 具体要求 简单来说 就是实现服务器端和客户端 可以做到多个客户端并发对字典中的数据进行操作 但是不考虑跨局域网的情
  • 数据决定AIGC的高度,什么又决定着数据的深度?

    有人曾言 数据决定人工智能发展的天花板 深以为然 随着ChatGPT等AIGC应用所展现出的强大能力 人们意识到通用人工智能的奇点正在来临 越来越多的企业开始涌入这条赛道 在AIGC浪潮席卷全球之际 数据的重要性也愈发被业界所认同 之所以会
  • Hbase的入门心得:

    Hbase的入门心得 在了解了Hadoop的大家族的核心成员HDFS MapReduce以及资源管理器YARN后 HBase又是一个新颖的技术出现 在超人学院吴超老师的视频里介绍到 HBase Hadoop Database是一个分布式的

随机推荐