大数据分析引擎之presto简介

2023-10-26

大数据分析引擎之presto简介

简介：
presto是一个大数据分析引擎，不属于hadoop体系，他是基于内存的。他的集群模式是主从式的。
他可以与任何的大数据存储引擎做集成，集成的时候使用它的Connectors集成
在这里插入图片描述
从这里我们可以他可以和kafka、mysql、内存、hive来做集成
安装：
1.解压：tar -zxvf presto-server-0.217.tar.gz -C ~/training/
2.创建etc目录，并包含以下配置文件
cd ~/training/presto-server-0.217/
mkdir etc
①　Node Properties: 节点的配置信息
②　JVM Config: 命令行工具的JVM配置参数
③　Config Properties: Presto Server的配置参数
④　Catalog Properties: 数据源（Connectors）的配置参数
⑤　Log Properties：日志参数配置
node.properties

#集群名称。所有在同一个集群中的Presto节点必须拥有相同的集群名称。
node.environment=production
#每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例（例如：在同一台机器上安装多个Presto节点），那么每个Presto节点必须拥有唯一的node.id。
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff 
# 数据存储目录的位置（操作系统上的路径）。Presto将会把日期和数据存储在这个目录下。
node.data-dir=/root/training/presto-server-0.217/data

jvm.config（内存相关配置）

-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError

config.properties（因为测试用到的一台虚拟机所以我们只简单配置一个文件就行了，如果我们是全分布式的需要配置主节点和从节点的）

coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8080
query.max-memory=5GB
query.max-memory-per-node=1GB
query.max-total-memory-per-node=2GB
discovery-server.enabled=true
discovery.uri=http://192.168.112.111:8080

log.properties （日志相关配置）

com.facebook.presto=INFO

集成hive，集成hive的时候我们必须在presto的etc文件夹下创建一个catalog目录，所有集成数据源都在这里配置
mkdir /root/training/presto-server-0.217/etc/catalog
hive.properties（集成hive的配置文件）

#注明hadoop的版本
connector.name=hive-hadoop2
#hive-site中配置的地址
hive.metastore.uri=thrift://192.168.157.111:9083
#hadoop的配置文件路径
hive.config.resources=/root/training/hadoop-3.1.2/etc/hadoop/core-site.xml,/root/training/hadoop-3.1.2/etc/hadoop/hdfs-site.xml

注意：要访问Hive的话，需要将Hive的MetaStore启动：hive --service metastore
这个窗口不能关掉
用来另一个窗口启动Presto
启动Presto Server
./launcher start

	运行presto-cli
	下载：presto-cli-0.217-executable.jar
	重命名jar包，并增加执行权限
	cp presto-cli-0.217-executable.jar presto 
	chmod a+x presto
	连接Presto Server
	./presto --server localhost:8080 --catalog hive --schema default

然后我们使用presto命令行模式连接到hive的default默认的数据库中
在这里插入图片描述
可以使用show tables查看一下default库中的table，并查看一下它里边的表

这样我们就把presto配置完成了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据分析引擎之presto简介的相关文章

Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker

随机推荐

朋友圈--并查集

LeetCode 朋友圈班上有 N 名学生其中有些人是朋友有些则不是他们的友谊具有是传递性如果已知 A 是 B 的朋友 B 是 C 的朋友那么我们可以认为 A 也是 C 的朋友所谓的朋友圈是指所有朋友的集合给定一个 N N
关于 Pytorch 学习的一些小困惑的理解

目录小记 20 2 27 model model cuda 和model model to cuda 是等价的嘛模型会自动初始化嘛训练好的网络模型是如何保存的又是如何再加载的哪些部分可以移到GPU上运算关于torch nn mu
【毕业设计】SVM 分类器和深度学习的方法对多种无人机型号进行分类识别【程序+论文】

利用 SVM 分类器和深度学习的方法对多种无人机型号进行分类识别但是对于同种型号无人机不同个体识别率不高射频指纹 Radio Frequency Distinct Native Attribute RFDNA 的提出为解决这一问题提供
RabbitMQ--交换机、队列、消息

交换机 autoDelete 如果设置为true 唯一的一个交换机或者队列解绑那么该队列将会被自动删除交换机类型 faout 经过交换机的消息直接转到所有与这个交换器绑定的队列中无视rounting key的存在 direct 经过交
国密：SM2公私钥加签验签

一工具类 POM中增加hutool
jdbc mysql 重连_JDBC实现Mysql自动重连机制的方法详解

JDBC是一个用于连接和访问各种数据库的应用编程接口它可以提供Java程序和各种数据库之间的连接服务以下是成都seo技术频道编辑带来的实现Mysql自动重连机制的JDBC方法的详细说明日志使用连接器 J连接属性自动连接真来避免
我的Docker部署笔记

Centos7下安装Docker 1 root账户登录查看内核版本 root localhost uname a Linux localhost localdomain 3 10 0 1160 el7 x86 64 1 SMP Mon O
var与let的区别【一看就懂的知识】

今天偶尔翻看了一本书 JavaScript编程精解在函数这一章节中难免会看到作用域这个字眼之前对于作用域的概念本就不是很敏感也就匆匆略过了反过来看时才明白这是一个比较重要的点下面借作用域这一概念深入了解一下本文的重点 var
5.QT5中的connect的实现

在QT4中解析信号槽是通过将信号槽的名字转化为字符串然后通过connect解析该字符串得到信号函数的相对序号和然后创建信号connectionlist 但是所有的检查都在运行时通过解析字符串进行这意味着如果信号槽的名称拼写错
springcloud之服务配置中心

springcloud之服务配置中心 SpringCloud Config简介 Config Server基本使用 Config Client基本使用 Config整合Eureka Config配置搜索路径 SpringCloud Conf
2021.11.7总结

数据结构将第三章栈与队列知识点看完了栈是先进后出表队列是先进先出表然后发现了书上有很多题目慕课上面也有很多题目只是我自己没写而已下周从第一章开始写题然后洛谷很久没写题目了下周将数据结构书上和课程的题目写完到第三章洛谷
开启OLED透明屏代理之路：高质量显示解决方案的商机

随着科技的不断进步 OLED透明屏作为一种创新的显示技术正逐渐在各个领域得到广泛应用作为一名OLED透明屏代理商你将有机会参与其中共享这一蓬勃发展的市场一介绍OLED透明屏的概念和特点 1 1 什么是OLED透明屏 OLED透明
pandas_数据处理分析基本

一 Pandas基础用法 20210405 fancy lee 1 pandas介绍 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具该工具是为了解决数据分析任务而创建的 panda
ESP-12F开发环境

ESP 12F可以使用arduino IDE快速开发 1 首先安装arduino IDE 搜索直接下载即可 2 在文件 gt 首选项 gt 附加开发板管理器网址中添加ESP8266开发板网址 http arduino esp8266 co
PHP curl 传输文件流

PHP版本5 5以下时可直接使用拼接要传输的文件的绝对路径即可 params file str replace ABSOLUTE PATH str PHP版本5 5以上时需要使用curl file create函数创建一个 CURLF
Python中Pickle模块的dump()方法和load()方法

Python中的Pickle模块实现了基本的数据序列与反序列化一 dump 方法 pickle dump obj file protocol 注释序列化对象将对象obj保存到文件file中去参数protocol是序列化模式默认是0
docker 使用pytorch在gpu上训练模型

docker 使用pytorch在gpu上训练模型安装docker 下载docker image 建立启动容器进入docker虚拟空间不一定能运行起来安装docker sudo apt get y install docker io
百度旋转验证码（8-24，js逆向）

网址 aHR0cHM6Ly96aXl1YW4uYmFpZHUuY29tL2xpbmtzdWJtaXQvdXJs 一抓包分析刷新网页先看第一个包提交参数是ak和时间戳 ak是定值返回的参数中 as和tk后面都会用到然后点击提交链接
Android AnimationDrawable动画与APP启动引导页面

Android AnimationDrawable动画与APP启动加载引导页面画面 AnimationDrawable是Android的Frame动画可以简单的认为此AnimationDrawable能够将一系列资源图片加载成电影
大数据分析引擎之presto简介

大数据分析引擎之presto简介简介 presto是一个大数据分析引擎不属于hadoop体系他是基于内存的他的集群模式是主从式的他可以与任何的大数据存储引擎做集成集成的时候使用它的Connectors集成从这里我们可以他可以和

大数据分析引擎之presto简介

大数据分析引擎之presto简介

大数据分析引擎之presto简介 的相关文章

随机推荐

热门标签

大数据分析引擎之presto简介的相关文章