如何在spark中读取orc事务hive表？

2023-12-19

我在通过 Spark 读取 ORC 事务表时遇到问题我获得了配置单元表的架构，但无法读取实际数据

查看完整场景：

hive> create table default.Hello(id int,name string) clustered by
(id) into 2 buckets STORED AS ORC TBLPROPERTIES
('transactional'='true');
   
hive> insert into default.hello values(10,'abc');

现在我正在尝试从 Spark sql 访问 Hive Orc 数据，但它显示唯一的模式

>spark.sql("select * from  hello").show()

输出：id,名称

是的，作为一种解决方法，我们可以使用压缩，但是当作业是微批量压缩时，压缩将无济于事。所以我决定使用 JDBC 调用。请在下面的链接中参考我对此问题的回答或参考我的 GIT 页面 -https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

这个问题请参考我的回答 https://stackoverflow.com/questions/53199369/how-to-access-the-hive-acid-table-in-spark-sql/56233085#56233085

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在spark中读取orc事务hive表？的相关文章

Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
Spark 和 Scala 中的文本操作

这是我的数据 review text The product picture and part number match but they together do not math the description review text A
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF

随机推荐

在 cytoscape 中鼠标悬停时显示和隐藏节点信息

我正在浏览器中处理 cytoscape js 图表我想当鼠标悬停在细胞景观图中的节点上时显示节点的一些信息例如节点标签以下代码适用于console log 但我想在浏览器中显示信息 cy on mouseover node funct
静态字段是否开放用于垃圾回收？

给定一个仅在程序设置中使用的假设实用程序类 class MyUtils private static MyObject myObject new MyObject package static boolean doStuff Params
如何在 SQL Server 2008 中同时为多个表设置 IDENTITY_INSERT ON

我有两张桌子tblData1 and tblData2现在我想使用身份插入从另一个表迁移记录我正在尝试运行如下所示的命令 SET IDENTITY INSERT LP1 dbo tblData1 ON GO SET IDENTITY IN
我如何知道 MovieClip 何时放置在舞台上完成播放？

MovieClip mcName play MovieClip mcName addEventListener myStopFunction 或者你对比赛结束的了解有何不同 MovieClip 是一个外部文件根据需要加载到 swf 中使
如何使用aws-sdk Javascript获取EC2公共IP

我想使用 aws sdk for Javascript 获取 EC2 实例的公共 IP 执行下面的代码后返回结果为 Reservations use strict const AWS require aws sdk AWS config
我可以在 R 中使用pairs()函数并绘制默认图的子集吗？

我试图找到选定的目标变量与数据集中的其他变量之间的关系例如如果我考虑自动数据集我会得到以下图假设我的目标变量是mpg library ISLR pairs Auto 情节的图像 https i stack imgur com f3H
服务器之间的资产指纹不同

我正在将 Rails 3 2 14 应用程序部署到两台不同的服务器在它们前面有一个负载均衡器目前正在服务器上预编译资产通过 capistrano 部署由于某种原因两台服务器上的 application js 文件上的指纹不同源文
在 JavaScript 中使用 var 而不是 let 的原因有哪些？ [复制]

这个问题在这里已经有答案了使用新关键字let对于 javascript ES6 中的变量声明我无法再想出使用的充分理由var 到目前为止我一直在这样做并且我没有看到使用的任何缺点let每时每刻使用的充分理由是什么var今天这是一
如何在 MYSQL 中获取第二个最大日期

我想从 mysql 数据库获取我的记录我想从记录中获取第二个最大日期但我失败了这是我的代码
Windows 上的 Dockererized Kong 给出“从上游服务器收到无效响应”

请帮助我因为我在使用 Dockerized Kong 从 REST 端点获取数据时收到从上游服务器收到无效响应错误我尝试使用 Kong 访问的 REST 服务正在我的本地主机上运行 Kong请求添加API curl i X POST
将实体绑定到 Windows DataGridView

我有一个绑定到 DataGridView 的 EF 源绑定是以编程方式发生的但是排序不起作用所以我决定搞乱一些代码并创建一个扩展方法但它似乎仍然不起作用 public static class BindingListEntityE
数组的反序列化不支持类型

我正在尝试对数组进行反序列化但我不断遇到错误 JavaScriptSerializer jsonSerializer new JavaScriptSerializer Profiles thingy jsonSerializer Dese
如何使用nodejs禁用tls 1.0并仅使用tls 1.1

我想禁用 TLS v1 0 并仅使用 TLS 1 1 及更高版本通过nodejs 我使用https模块如何设置https选项我已阅读 api 文档节点 API TLS https nodejs org api tls html 但我还
片段 setuserVisibleHint true 但 getActivity 返回 null

我一直在片段内部做一些逻辑setUserVisibleHint 方法我一直在检查是否isVisibleToUser为 true 然后使用getActivity返回活动在我将支持库更新到最新版本之前这一切都运行良好 100 的时间 su
当鼠标停止移动时执行Jquery

我有一个快速脚本其轨迹跟随光标 jQuery document ready function document mousemove function e fall each function if this css opacity 0 t
SQL：使 COUNT(*) > 1 高效

如果你想知道是否COUNT gt 0 那么你可以使用EXISTS使查询更加高效当我想知道是否可以时有没有一种方法可以使查询更有效COUNT gt 1 需要与 SQL Server 和 Oracle 兼容谢谢杰米 Edit 我正在尝试
Dapper 支持 like 运算符吗？

使用 Dapper dot net 以下在数据对象中不会产生任何结果 var data conn Query select top 25 Term as Label Type ID from SearchTerms WHERE Term l
线程安全和非线程安全 PHP Windows 安装包之间有哪些技术差异？

我目前正准备为基于 Apache Windows 的开发环境安装 PHP 但似乎我即将遇到第一个障碍选择要安装的正确包 PHP 的可用版本不少于four口味 http windows php net download VC9 x86 非线
R：简单乘法导致整数溢出

在较长的脚本中我必须将向量 A 的长度 2614 乘以数据帧 B 的行数 1456000 如果我直接这样做length A nrow B 我收到消息NAs produced by integer overflow尽管当我乘以相同的数字时没
如何在spark中读取orc事务hive表？

如何在spark中读取orc事务hive表我在通过 Spark 读取 ORC 事务表时遇到问题我获得了配置单元表的架构但无法读取实际数据查看完整场景 hive gt create table default Hello id int

如何在spark中读取orc事务hive表？

如何在spark中读取orc事务hive表？ 的相关文章

随机推荐

热门标签

如何在spark中读取orc事务hive表？的相关文章