Impala presto hbase hive sparksql

2023-11-18

Impala 技术点梳理
http://www.cnblogs.com/TiestoRay/p/10243365.html
Impala
优点:
实时性查询
计算的中间结果不写入磁盘
缺点:
对于内存的依赖过于严重,内存溢出直接导致技术任务的失败
不支持UDF,不支持UPDATE/DELTE操作,不支持同一SELECT中多个DISTINCT

即在内存不足时将数据存入磁盘进行计算。这是在Impala 1.4 for CDH4、CDH5.1开始支持的功能,以增加了磁盘IO,延长了运算时间为代价,避免了内存溢出的问题。
注意:该功能也是有限制的:

不是所有的SQL语句都能触发,例如union关键字还是会触发内存溢出错误;

各个节点的内存峰值限制不能过低,低于运算所需分配给各个节点的最小内存;

运算explain输出的各个节点预估内存不能过分高于各个节点的实际物理内存;

当触发“Spill to Disk”功能时有其他并发查询,仍会触发内存溢出错误;

对磁盘的空间有一定的要求,磁盘运算的数据会写入到impala各个节点的临时目录下,增加了磁盘I/O,并且会引发不可控制的磁盘占用。

presto
presto适合pb级的海量数据查询分析,不是说把pb的数据放进内存,比如一张pb表,查询count,vag这种有个特点,
虽然数据很多,但是最终的查询结果很小,这种就不会把数据都放到内存里面,只是在运算的过程中,拿出一些数据放内存,然后计算,
在抛出,在拿,这种的内存占用量是很小的,但是join这种,在运算的中间过程会产生大量的数据,或者说那种查询的数据不大,
但是生成的数据量很大,这种也是不合适用presto的,但不是说不能做,只是会占用大量内存,消耗很长的时间,这种hive合适点.
presto算是hive的一个补充,需要尽快得出结果的用presto,否则用hive.
presto是常驻任务,接受请求立即执行,全内存并行计算;hive需要用yarn做资源调度,接受查询需要先申请资源,启动进程,并且中间结果会经过磁盘。

HBASE
只支持rowkey查询 不支持范围查询、条件查询等查询操作

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Impala presto hbase hive sparksql 的相关文章

随机推荐

  • c语言 push,深入了解C语言(局部变量的定义)

    深入了解C语言 这一节我们主要来研究一下C语言如何使用函数中的局部变量的 C语言中对于全局变量和局部变量所分配的空间地址是不一样的 全局变量是放在 DATA段 也就是除开 TEXT代码段的另一块集中的内存空间 而局部变量主要是使用堆栈的内存
  • Java 9:装B之前你必须要会的——泛型,注解,反射

    1 泛型 1 1 基本概念 泛型提供了编译期的类型检查 但问题远非这么简单 原生态类型 List list1 new ArrayList 规避的类型检查 List list1 new ArrayList
  • 【mcuclub】PH酸碱度检测传感器-PH4502C

    一 实物图 型号 PH4502C 二 原理图 编号 名称 功能 1 VCC 供电电压正极 5V 2 GND 供电电压负极 3 GND 模拟信号输出负极 4 PO 模拟信号输出正极 5 2V5 基准电压2 5V输出口 6 T1 温度传感器DS
  • 在 vscode 上刷力扣 Leetcode 可以这样来

    背景 神奇的算法网站 LeetCode 值得驻留 网页版似乎不太方便 作为习惯于在编译器上敲代码的你 如何 vscode 上优雅的刷力扣 Leetcode 在本地配置 记录下来方便备查 环境前置 电脑具备 NodeJs环境 第一步 安装插件
  • 模型优化-RMSprop

    RMSprop 全称 root mean square prop 算法 和动量方法一样都可以加快梯度下降速度 关于动量方法的内容可以参考这篇博文模型优化 动量方法 动量方法借助前一时刻的动量 从而能够有效地缓解山谷震荡以及鞍部停滞问题 而
  • linux云主机如何运维建站最简单-办法来了

    对于企业和个人站长来说 云服务器运维管理是一件比较棘手的问题 如果企业没有专业的运维工程师 那么就会使用一些工具来帮助运维 毕竟通过shh命令操作linux服务器的还是少数 那么运维服务器这件事就要用到一个工具linux面板 每个人对于云服
  • EXCEL VBA从入门到精通 第一章:VBA入门

    第一章 VBA入门 第一节 什么是VBA 介绍VBA的定义 作用和优点 VBA Visual Basic for Applications 是一种编程语言 是微软Office套件中的一个重要组成部分 主要用于自动化处理Office中的各种操
  • Xilinx平台SRIO介绍(二)SRIO IP核基础知识

    使用SRIO IP核必须掌握的基础知识 理解了这篇 剩下的只是代码罢了 汇总篇 Xilinx平台SRIO介绍 汇总篇 目录 前言 SRIO RapidIO GT 有什么关系
  • 基于python进行小波分析,频率谱分析

    该方法基于python进行时间序列的小波分析并出图 包括功率谱图和小波分解后的图 默认的小波为morlet小波 该代码由 Evgeniya Predybaylo 博士提供 https github com chris torrence wa
  • RecyclerView嵌套RecyclerView的滑动问题如何解

    一 概述 虽然今天我们要说的是Rv嵌套Rv的问题 但多数情况下我们都不会使用Rv嵌套Rv 来实现复杂的列表 而是使用多ItemType实现 可能再复杂点的 配合GridLayoutManager SpanSizeLookup一起来实现 再高
  • C/C++ 指针详解

    指针详解 参考视频 https www bilibili com video BV1bo4y1Z7xf 感谢Bilibili fengmuzi2003的搬运翻译及后续勘误 也感谢已故原作者Harsha Suryanarayana的讲解 RI
  • 【前端技术】Vue在打包之后出现Css样式冲突,解决方法。

    原文链接 先说问题 1 在做vue项目打包时出现Css样式冲突的问题 在本地运行项目时样式都是正常 但在服务器进行打包之后项目的整体样式就有问题了 举例说明 1 图片大小发生变化 怎么改也改不好 2 在查看F12中会多出当前页面没有设置过的
  • 关闭HttpClient控制台输出语句

    关闭HttpClient控制台输出语句 HttpClient相信大家都不陌生 在Java中经常用来在后台进行一些请求访问或者接口调用 当然这里不是介绍HttpClient使用的 关于HttpClient使用方面的文章 大家可以去百度或者Go
  • [leetcode] 推多米诺 双指针

    题目链接 一开始想多了 像成了真实生活中的那种会叠加的状态 就比如 RRL 中 左边的两个 R 会让第三个 L 向右边倾斜 直接用前缀和进行操作 但是发现示例1都无法通过 所以说是错的 正确的想法是 每一个暂未确定状态的 都由这个字符两侧最
  • TreePanel树形节点不收缩刷新

    TreePanel树形节点不收缩刷新 遇到的问题 在使用Ext树形组件的时候 下层节点的刷新 总是需要下层节点全部搜索然后再展开 如果需要实时的从后台获取数据 改变某些节点的text或者icon时 就显得不够优雅了 解决方案 负责树形组件T
  • 无法启动此程序因为计算机中丢失api-ms-win-crt-runtime-l1-1-0.dll

    系列文章目录 文章目录 系列文章目录 前言 安装 前言 出现这个问题是因为本地api ms win crt runtime l1 1 0 dll 版本过低或者不存在 Visual C Redistributable for Visual S
  • 【铨顺宏项目推荐】RFID无线射频识别技术的设计思路

    一 项目背景 在传统的珠宝物流管理中 条形码技术通常被使用 虽然该技术可以在一定程度上提高物流管理效率 但仍不能满足现代珠宝行业的需求 条形码存储信息量低 信息不可追加 易损坏 读取位置要求高等问题逐渐显现 RFID与传统的条码识别方法相比
  • _thiscall调用约定的简单概念

    thiscall 我们知道在c中由三种调用约定 cdecl stdcall和 fastcall 其中 stdcall调用约定是windows平台的 在c 中还有一种约定 thiscall调用约定 它是一种类成员方法调用约定 当我们说起 th
  • python3神经网络学习NN学习初步(一)

    1 神经网络的概念 我们用一张图来了解一下吧 多层向前神经网络由以下部分组成 输入层 input layer 隐藏层 hidden layers 输入层 output layers 补充 一般第一层是输入层 最后一层是输出层 其他的的都是中
  • Impala presto hbase hive sparksql

    Impala 技术点梳理 http www cnblogs com TiestoRay p 10243365 html Impala 优点 实时性查询 计算的中间结果不写入磁盘 缺点 对于内存的依赖过于严重 内存溢出直接导致技术任务的失败