避免以编程方式启动使用创建的上下文的 HiveThriftServer2

2024-02-29

在 Spark 2.0.0 中，我们尝试使用 ThriftServer 从 Spark 临时表中查询数据。

首先，我们创建了启用了 Hive 支持的 SparkSession。目前，我们使用 sqlContext 启动 ThriftServer，如下所示：

HiveThriftServer2.startWithContext(spark.sqlContext());

我们有带有注册临时表“spark_temp_table”的 Spark 流：

StreamingQuery streamingQuery = streamedData.writeStream()
                                             .format("memory")
                                             .queryName("spark_temp_table")
                                             .start();

使用 beeline 我们可以看到临时表（运行 SHOW TABLES）；

当我们想用这种方法运行第二个作业（使用第二个 SparkSession）时，我们必须使用不同的端口启动第二个 ThriftServer。

我在这里有两个问题：

有没有办法让一个端口上的一台 Thrift 服务器能够访问不同 Spark 会话中的所有临时表？
HiveThriftServer2.startWithContext(spark.sqlContext());注释为@DeveloperApi。有没有办法以编程方式启动带有上下文而不是代码中的 Thrift 服务器？
我看到有配置--conf spark.sql.hive.thriftServer.singleSession=true在启动时传递给 ThriftServer (sbin/start-thriftserver.sh)，但我不明白如何为作业定义它。我尝试在sparkSession builder中设置此配置属性，但beeline没有显示临时表。

有没有办法让一个端口上的一台 Thrift 服务器能够访问不同 Spark 会话中的所有临时表？

No. ThriftServer使用特定的会话，临时表只能在该会话内访问。这就是为什么：

beeline 没有显示临时表。

当你启动独立服务器时sbin/start-thriftserver.sh.

spark.sql.hive.thriftServer.singleSession并不意味着您可以获得多个服务器的单个会话。它对所有连接使用相同的会话单个 Thrift 服务器。可能的用例：

你启动thrift服务器。
client1 连接到该服务器并创建临时表foo.
client2 连接到该服务器并读取foo

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

hive

apachesparksql

apachespark20

避免以编程方式启动使用创建的上下文的 HiveThriftServer2 的相关文章

遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
如何从spark管道逻辑模型中提取变量权重？

我目前正在尝试学习 Spark Pipeline Spark 1 6 0 我将数据集训练和测试导入为 oas sql DataFrame 对象执行以下代码后生成的模型是oas ml tuning CrossValidatorMode
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

随机推荐

创建具有大量标志的位标志变量或如何创建大位宽数字

假设我有一个枚举其位标志选项大于标准数据类型中的位数 enum flag t FLAG 1 0x1 FLAG 2 0x2 FLAG 130 0x400000000000000000000000000000000 由于多种原因这是不可能的
如何检查字符串是否与 Python 中的设定模式匹配？

我想将字符串与特定模式或单词集匹配如下所示 the apple is red是查询并且the apple orange grape is red orange violet是要匹配的模式这些管道代表可以相互替换的单词该模式也可以分组为
如何检索单元格评论的文本

我找到了很多用于创建的示例但没有找到用于检索单元格注释文本的示例我错过了一些明显的事情吗 Range Comment Text似乎在这里工作没有任何问题 e g if not ActiveCell Comment is nothing
RestKit 不会从本地存储中删除孤立对象

您好我已将 RestKit 从 0 10 2 更新到 0 20 3 现在更新后当 Web 服务中缺少对象时 RestKit 不会从本地存储中删除它们我知道 RestKit 0 20 x 支持它但我无法配置它我按照这里给出的例子进行
如何通过其值而不是位置设置微调器默认值？

我的数据库中有 1 50 条记录我使用游标获取这些数据并使用简单游标适配器将这些值设置为 Spinner 现在我需要的是我想设置一个值例如第 39 个值作为默认值但我不想通过它的位置来设置它的值我知道如何通过其位置设置微调器默认
在Centos 6.6 64位中安装pymssql

我尝试在 Centos 6 6 中 pip install pymssql 但不断遇到此错误 mssql c 314 22 错误 sqlfront h 没有这样的文件或目录 cpp helpers h 34 19 错误 sybdb h 没有
检测节点在场景中何时可见

我正在尝试找到一种方法来检测或接收通知节点已添加到场景中并且可见我正在主 JavaFx 线程中创建 Node 对象并将它们添加到舞台和场景中使用Platform runLater 但是我希望 Node 对象接收已添加到场景中并且
Typescript：将 JSON 对象转换为类/接口对象

我正在尝试将 API 响应转换为打字稿类接口这里 API 返回具有某些属性的对象列表但我只需要响应对象的少数属性 API响应示例 Id 1 Name test Description Test PropertyX x Property
DNS 在 PHP 中不工作（但一般情况下可以）

以下脚本返回 DNS 记录列表但最终在 file get contents 上失败尽管 phpinfo 说 allow url fopen On On allow url include Off 出现以下错误 PHP 消息 PHP 警
从 Numpy 中的多个切片中选择

说我们有 a np ones 3 3 3 and slices 0 1 slice None 0 slice None 0 slice None 1 0 有没有一种简单的方法来选择更改值a from slices 例如我想分配0 to
在 JSF 中向 selectOneMenu 添加“未选择任何内容”选项的最佳方法

我想知道允许用户在 selectOneMenu 中不选择任何内容的最佳或最简单的方法是什么我的示例我有一个注册用户列表管理员应该能够按某些条件过滤显示的用户列表这些标准例如用户类型员工客户可以通过 selectOneMenu
Twitter bootstrap .popover 不工作

我正在尝试让 Twitter Bootstrap 的 popover 工作并且我几乎复制了我网站上的代码但它告诉我 Object object object 在检查元素上没有方法 popover 我在 bootstrap tooltip
根据另一列中的值创建新的指标列

我有一些数据看起来像这样 import pandas as pd fruits apple pear peach df pd DataFrame col1 i want an apple i hate pears please buy a
PHP Doctrine 初学者：Doctrine\ORM\Tools\Setup 未找到

我是教义的初学者我刚刚安装了 pear 主义 2 3 3 并想测试它为了测试教义我写了一个名为 person 的类 Entity class person Id Column type integer GeneratedValue p
Scala：用于未来理解的 ExecutionContext

当我做一个future 或应用类似的方法onSuccess and map 我可以为它们指定 ExecutionContext 例如 val f future code executionContext f map someFunction
防止 pandoc 将 $ 转换为 mediawiki

我正在使用 pandoc 将 markdown 文件转换为 mediawiki 表文件内容mtcars md c1 c2 7 P A A 8 AB B 9 P A C 然后我就这样做了我使用的是 Ubuntu 64 位和 pandoc
在 Objective-C/cocoa 中抛出异常

在 Objective C cocoa 中抛出异常的最佳方法是什么 I use NSException raise format 如下 NSException raise Invalid foo value format foo of d
为什么我的 SVG 在 Polymer 组件内由 D3 渲染，没有样式？

这里有一个Plunker我的问题的草图 http plnkr co 7hW5Rp71Qy1IwptZx4i6 相关代码包含 Polymer 模板及其调用
Kendo UI 网格在调用读取后未填充

好吧我还有另一个我确信我又错过了一些简单的东西使用 json 结果集填充 Kendo 网格加载是通过从剑道下拉列表控件中进行选择来触发的我可以看到数据从我的 webapi 返回并转换为 json 结果但数据未显示在网格中我错过
避免以编程方式启动使用创建的上下文的 HiveThriftServer2

在 Spark 2 0 0 中我们尝试使用 ThriftServer 从 Spark 临时表中查询数据首先我们创建了启用了 Hive 支持的 SparkSession 目前我们使用 sqlContext 启动 ThriftServe

避免以编程方式启动使用创建的上下文的 HiveThriftServer2

避免以编程方式启动使用创建的上下文的 HiveThriftServer2 的相关文章

随机推荐

热门标签