日增30-40亿数据量的数据库

2023-11-12

author:skate

time:2010-08-13


 

 

前几天和个朋友聊天,他说他有每天30-40亿条数据量的数据库如何规划与优化,简单了解需求是这30-40亿数据是每天
采集的,然后同时还对这些采集的数据进行分析挖掘,对于这么大量的数据量有几个问题需要考虑


1. 如何保证性能,如何规划数据库的整体架构
2. 数据存储如何规划
3. 数据库的备份

 

1. 如何保证性能

 

据我理解的需要,这30-40亿数据采集来主要用于分析,那可以把数据按不同类别存储在不同的表中(或分区表),假如分10类,那平均每个类表的数据量就是3亿条,还是很多,对于挖掘分析还是慢,那就再细化,例如把每个类表按每小时分区,每个小时做一次汇总统计,
把数据统计到汇总表里,这样每个小时类表的数据量平均大概是1200万条数据,这个数据量应该就不算太大了,这个只是汇总分析的
思路,然后再考察系统还要提供大量用户的查询,写高效的sql,优化数据库,os参数等可以提高数据库响应速度,但毕竟是有限的,
因为对于这样的数据量系统,一般磁盘io才是最重要的瓶颈,为了减少提高整体的响应速度,要遵守一条原则,就是想办法把数据靠近
cpu,cache是最好的办法,可以大量减少对磁盘的冲击,从而提高响应速度。

 

对于长期保留数据,汇总表也会越来越大,可以采用数据库分布式等(这要根据业务需求)

 

总的原则就是大事化小,小事化无

 

2. 数据存储如何规划

 

存储空间的规划,每天几个T的数据量增长,一定要规划的数据的存储,可以根据数据的重要程度,分级存储,对不用的历史数据及
时下线存储,以为生产提供空间

 

3. 数据库的备份

 

制定合理的满足需求的数据库备份,备份和恢复要平和考虑。备份终于一切

 

 

 

 

----end---

 

 

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

日增30-40亿数据量的数据库 的相关文章

  • R小姐:mice 多重插补

    文章名称 mice Multivariate Imputation by Chained Equations in R 文章链接 https www jstatsoft org article view v045i03 加载mice包 li
  • SpringMVC学习(二)--前后端传值

    1 前端向后端传值 Controller public class TestController RequestMapping test 如果想要获得前台的参数 可直接定义 名字必须一样 public String test String

随机推荐

  • Spring Boot入门教程

    好的 下面是一份Spring Boot入门教程 希望能对您有所帮助 Spring Boot入门教程 1 什么是Spring Boot Spring Boot是一款用于构建独立的 生产级别的Spring应用程序的框架 它可以让我们更快地开发S
  • Jquery.Pagination分页插件的学习

    http blog csdn net xiaochengzi 2015 article details 51762432 编程小白 文章中出现的谬误希望大神指点 工作接到一个任务 需要把现在pagination的样式修改成前端给的样式 当时
  • WolframTones:用一种新科学谱写一种新音乐

    转载自 36氪人法地 地法天 天法道 道法自然 老子 道德经 即便你不信上帝 不信真主 不信佛陀 不信妈祖 总有种敬畏让你挥之不去 余音绕梁 总是让你情不自禁地发出赞美 2002年著名科学家发表了 一种新科学 一书 很快成为人类知识领域的一
  • Vue - 去掉路由中的#号

    vue router默认是hash模式 在hash模式下 是会有 号在URL上 可以在路由的第一行添加 mode history来去掉 号 const router new Router mode history routes 一开始用的t
  • nginx实践(一)、安装和部署

    很长一段时间没有更新blog 因为这一段时间 都在研究一个实时事件处理应用 计划把该实时事件处理服务 修改为分布式服务 相关内容以后再与大家汇报 好了 因为工作缘故 要分析一个使用nginx的应用 所以从本节开始 介绍一下nginx的相关实
  • H5页面在ios的浏览里返回不刷新页面,解决浏览器自带缓存的问题。

    1 利用pageshow来解决 pageshow的web api pageshow Web API 接口参考 MDN 2 解决 在app vue里面 isPageHide false 定义变量 created void window add
  • Connections between cities 【HDU - 2874】【在线LCA算法】

    题目链接 昨天刚学了在线LCA 今天就来硬刚这道题还是花了一整天的时间 不过对于LCA却有了更多的理解 这道题在讲述不同根的做法上尤其是很好的 题目告诉我们有N个节点和M条边 以及C次询问 每次查询的是 L R 这两个节点间的距离 还是算得
  • dbeaver 配置mysql数据库驱动

    右键点击要数据库连接选择 编辑连接 然后点击 编辑驱动设置 从mysql8版本后 mysql的驱动类名发生改变 变成了com mysql cj jdbc Driver 所以如果要连接的数据库版本在8之前 需将 设置 界面的 类名 处改为 c
  • 华为od机试 Python【快递装载】

    前言 本题使用python解答 如果需要Java版本 请参考 点我 题目 快递需要按照一定的规则装载 所有的快递放在长方体的盒子当中 我们的需要是尽可能装载更多的快递 并且不能让货车超载 需要计算最多能装多少个快递 快递数最多1000个 货
  • 双列集合系列之Map集合的初了解

    Welcome Huihui s Code World 接下来看看由辉辉所写的关于双列集合的相关操作吧 目录 Welcome Huihui s Code World 顶级接口Map 一 Map集合的特点 二 Map集合的常见子类 HashM
  • xss渗透(跨站脚本攻击)

    一 什么是XSS XSS全称是Cross Site Scripting即跨站脚本 当目标网站目标用户浏览器渲染HTML文档的过程中 出现了不被预期的脚本指令并执行时 XSS就发生了 这里我们主要注意四点 1 目标网站目标用户 2 浏览器 3
  • 项目管理中什么最重要?

    被问过多次这个问题 尤其是在面试的时候 有说需求最重要 有说控制最重要 有的冠冕堂皇 来个成本 质量 时间三要素 美其名曰都重要 免得以偏概全 经多方求证 思索 结合十余年的项目管理经历 敝以为 项目管理中干系人管理最重要 尤其是关键干系人
  • Java面向对象编程

    一个关系数据库文件中的各条记录 A 前后顺序不能任意颠倒 一定要按照输入的顺序排列 B 前后顺序可以任意颠倒 不影响库中的数据关系 C 前后顺序可以任意颠倒 但排列顺序不同 统计处理的结果就可能不同 D 前后顺序不能任意颠倒 一定要按照关键
  • textarea placeholder不显示

    textarea placeholder不显示 textarea 的 placeholder 属性值不显示的原因可能是
  • DirectD3D-纹理映射

    DirectD3D 纹理映射 标签 Direct3Ddirectx游戏游戏开发 2014 11 12 14 03 321人阅读 评论 0 收藏 举报 分类 DirectX 8 版权声明 本文为博主原创文章 未经博主允许不得转载 纹理映射的概
  • python哪些类型可以作为迭代器_Python教程|全面理解Python迭代器和生成器

    在Python中 很多对象都是可以通过for语句来直接遍历的 例如list string dict等等 这些对象都可以被称为可迭代对象 至于说哪些对象是可以被迭代访问的 就要了解一下迭代器相关的知识了 迭代器 迭代器对象要求支持迭代器协议的
  • Golang架构直通车——理解Go GC

    文章目录 设计原理 三色抽象 三色不变性 插入写屏障 删除写屏障 垃圾收集器的增量和并发 增量式垃圾收集 并发式垃圾收集器 Go GC演进过程 并发垃圾收集 回收堆目标 混合写屏障 设计原理 三色抽象 标记清除 Mark Sweep 算法是
  • 数学建模--退火算法求解最值的Python实现

    目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介 1 设定退火算法的基础参数 2 设定需要优化的函数 求解该函数的最小值 最大值 3 进行退火过程 随机产生退火解并且纠正 直到冷却 4 绘制可视化图片进行了解退火
  • 异步javaScript

    在本文中 我们将解释什么是异步编程 为什么我们需要它 并简要讨论 JavaScript 历史上异步函数是怎样被实现的 预备知识 基本的计算机素养 以及对 JavaScript 基础知识的一定了解 包括函数和事件处理程序 目标 熟悉异步 Ja
  • 日增30-40亿数据量的数据库

    author skate time 2010 08 13 前几天和个朋友聊天 他说他有每天30 40亿条数据量的数据库如何规划与优化 简单了解需求是这30 40亿数据是每天采集的 然后同时还对这些采集的数据进行分析挖掘 对于这么大量的数据量