如果没有可用的指定分区路径，SPARK SQL 会失败

2024-04-14

我在 EMR 中使用 Hive Metastore。我可以通过 HiveSQL 手动查询表。
但是当我在 Spark Job 中使用同一个表时，它说输入路径不存在：s3://

导致：org.apache.hadoop.mapred.InvalidInputException：输入路径不存在：s3://...

我已经删除了 s3://.. 中的上述分区路径，但它仍然可以在我的 Hive 中工作，而无需在表级别删除分区。但无论如何它在 pyspark 中不起作用

这是我的完整代码

from pyspark import SparkContext, HiveContext
from pyspark import SQLContext
from pyspark.sql import SparkSession

sc = SparkContext(appName = "test")
sqlContext = SQLContext(sparkContext=sc)
sqlContext.sql("select count(*) from logan_test.salary_csv").show()
print("done..")

我提交了如下工作以使用配置单元目录表。

spark-submit test.py --files /usr/lib/hive/conf/hive-site.xml

我在 HDFS 上遇到了类似的错误，其中 Metastore 为表保留了一个分区，但目录丢失了

检查 s3...如果丢失，或者您删除了它，则需要运行MSCK REPAIR TABLE来自蜂巢。有时这不起作用，你实际上需要一个DROP PARTITION

该属性默认为 false，但您可以通过传递SparkConf反对SparkContext

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("test").set("spark.sql.hive.verifyPartitionPath", "false"))
sc = SparkContext(conf = conf)

或者，Spark 2 方式是使用 SparkSession。

from pyspark.sql import SparkSession

spark = SparkSession.builder \
...     .appName("test") \
...     .config("spark.sql.hive.verifyPartitionPath", "false") \
...     .enableHiveSupport()
...     .getOrCreate()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Hadoop

apachespark

hive

PySpark

如果没有可用的指定分区路径，SPARK SQL 会失败的相关文章

Python，将CSV文件转换为SQL表

我有一个没有标题的 CSV 文件并尝试从文件中的某些列创建 SQL 表我尝试了这里给出的解决方案使用 Python 将 CSV 文件导入 sqlite3 数据库表 https stackoverflow com questions 2
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
pyqt5调用url时处于无响应状态

我刚刚在 pyqt 中实现了登录但在调用 url 和获取响应之间 qt 窗口显示无响应状态谁能建议我如何避免不响应状态 code class Login QDialog def init self height width parent
使用另一个索引数组正确索引多维 Numpy 数组

我正在尝试索引多维数组P与另一个数组indices 它指定我想要沿最后一个轴的哪个元素如下所示 import numpy as np M N 20 10 P np random rand M N 2 9 index into the la
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
在Python中修改大型文本文件最后一行的最有效方法

我需要更新几个超过 2GB 的文件的最后一行这些文件由无法读取的文本行组成readlines 目前它可以通过逐行循环来正常工作但是我想知道是否有任何编译库可以更有效地实现这一点谢谢目前的方法 myfile open large
Django 抛出此错误：SMTPException：服务器不支持 STARTTLS 扩展

由于 gmail 中发送邮件的限制我在我的一台服务器上安装了 exim4 设置如下 dc eximconfig configtype internet dc other hostnames mydomain com localhost l
Pandas 多索引数据框删除行

我的多索引 DF 如下 tuples list zip a a b b c d c d index pd MultiIndex from tuples tuples names i1 i2 df pd DataFrame 5 6 7 8 i
如何将填充轮廓投影到 3D 曲面图上

我只是想在 3D 中绘制一个表面及其轮廓就像this http matplotlib org examples mplot3d contourf3d demo2 html例子这是我用来执行此操作的代码 import matplotlib
如何使用 python / pywinusb 将 hid 数据发送到设备？

我正在尝试使用 pywinusb 将输出报告发送到 pic18f4550 该设备可以接收数据我已经使用 C 应用程序对其进行了测试效果很好另外我可以使用 pywinusb 从设备读取数据但我在尝试发送数据时遇到问题这是我正在运行
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
Python：使用 FOR 循环插入字典

我已经在论坛中进行了搜索但不明白是否可以使用以下构造将新条目插入到我的 Python 字典中而不将其转换为列表 for x in range 3 pupils dictionary new key input Enter new key
将 2D 数组中的每一列与另一个 2D 数组中的每一列相乘

我有两个 Numpy 数组x有形状 m i and y有形状 m j 所以行数是相同的我想将每一列相乘x每一列y逐元素使结果具有形状 m i j Example import numpy as np np random seed 1 x
如何提取Python代码文件中使用的函数？

我想创建代码文件中使用的所有函数的列表例如如果我们在名为 add random py 的文件中有以下代码 import numpy as np from numpy import linalg def foo print np rand
如何使用电子表格中的第一行作为 Dataframe 列名称而不是 0 1 2...等？

我希望我的数据框将第一行名称显示为数据框列名称而不是从 0 等编号我该如何执行此操作我尝试使用 pandas 和 openpyxl 模块将我的 Excel 电子表格转换为数据框 import pandas as pd from ope
如何使用 Google Drive API 通过服务帐户访问域中的共享文件？

我一直在尝试从 Python 3 7 脚本访问有关 Google Shared Drive 文件的一些简单信息上次修改共享云端硬盘上的 Google 表格文件的时间我创建了一个服务帐户在 GCP Drive API 菜单中它可以通过
Python 用 lambda 函数封闭作用域变量

我写了这个简单的代码 def makelist L for i in range 5 L append lambda x i x return L 好的现在我打电话 mylist makelist 因为稍后调用嵌套函数时会查找封闭范围变量
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
从tensorflow 2.0 beta中的tf.data.Dataset检索下一个元素

在tensorflow 2 0 beta之前要从tf data Dataset中检索第一个元素我们可以使用迭代器如下所示 usr bin python import tensorflow as tf train dataset tf

随机推荐

如何在iOS Objective-C中实现php的openssl_encrypt()方法？

我想实现php的openssl encrypt 中的方法iOS Objective C 因此我尝试了这段代码 import
在经典 ASP 中设置 SessionId？

在 PHP 中我可以通过使用 Session id 作为 setter 来选择使用特定的 Session Classic ASP VBScript 中有类似的功能吗我有一个 VBScript 站点根据页面的不同该站点可以直接从浏览器
批量执行R脚本

我无法从 Windows 命令行获取脚本输入以下命令 C Program Files RStudio bin rstudio exe CMD BATCH vanilla slave E myfile R 打开 Rstudio 和相关脚本
http.max_content_length 的 Amazon OpenSearch 等效项是什么？我可以增加它吗？

在非 AWS 管理的 ElasticSearch 中您可以增加以下值http max content length configuration https www elastic co guide en elasticsearch ref
获取 ASP.NET MVC 4 中视图的嵌套级别

我一直在寻找一种方法来确定视图的嵌套级别我发现确定视图嵌套级别 https stackoverflow com questions 4982588 determine view nesting level在 stackoverflo
ROUGE评价方法给出零值

我已经按照中所述设置了所有参数http kavita ganesan com rouge howto http kavita ganesan com rouge howto 但我得到的精确召回率和 f 1 值为零请帮帮我我能做什么如果
创建自定义注释作为框架注释的别名？

是否可以创建一个自定义的别名注释来代替 SuppressWarnings unused EventBus public void onEvent SomeMessage msg like EventBusListener public vo
是否应该重用 SqlConnection、SqlDataAdapter 和 SqlCommand 对象？

我正在使用一个 DAL 对象该对象的布局类似于以下代码我简化了很多代码只是为了展示设置 public class UserDatabase IDisposable private SqlDataAdapter UserDbAdapter
从字符串中删除包含特定字符的行

我正在开发一个 Java 项目来读取 java 类并将所有 DOC 注释提取到 HTML 文件中我无法清理一串我不需要的线路假设我有一个字符串例如 Bla bla bla bla bla bla CODE CODE CODE Bla
检查客户端是否可以访问资源的 RESTful 方法是什么？

我正在尝试确定 REST API 中用于确定客户端是否可以访问特定资源的最佳实践两个简单的示例场景电话簿查找服务客户端通过访问例如查找电话号码 GET http host directoryEntries numbers 12345
抛出自定义异常并显示来自自定义 AuthenticationProvider 的错误消息

这是后续这个问题 https stackoverflow com questions 6412591 hooking into pre authentication with spring security core 我有一个扩展 Abst
统计foreach循环中当前迭代次数的百分比

我正在尝试构建一个脚本来获取循环迭代的当前百分比 I have
正则表达式与 antMatcher URL 模式不匹配

我试图忽略身份验证中的 url 我尝试了多种不同的模式但 java 似乎无法识别它们我的配置如下所示 Override public void configure WebSecurity web throws Exception sup
如果可能的话，如何在 C 中定义 2 位数字？

对于我的大学过程我正在模拟一个称为随机顺序吸附的过程我必须做的一件事是随机地将正方形不能重叠放置到格子上直到没有更多空间为止重复该过程几次以找到平均干扰覆盖率基本上我正在对一个大的整数数组执行操作其中存在 3 个可能的值
Swift 相当于 @encode

是否有与 Objective C 相当的 Swift encode 例如 encode void gt v 搜索一无所获不不存在因为在底层 Swift 类不使用 Objective C 内省来完成它们的工作不需要计算这个像 Obj
使用 Response.Redirect() 时出现线程中止异常

我在更新面板下的页面中编写了以下代码 protected void myGrid RowCommand object sender GridViewCommandEventArgs e try if e CommandName EditNa
从 SQL 中的存储过程获取 RETURN 值

我有一个存储过程它以 RETURN 值 0 或 1 结尾我想在另一个存储过程的 IF 语句中使用该值如何获取前一个存储过程的返回值并将其保存在后一个存储过程的变量中我找不到任何相关的东西所有问题都与在 C 中获取 RETURN 值
NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么预训练模型使用的语料是什么我尝试从NLTK网站上找到官方信息但他们没有那个 From https github com nltk nltk pull 1143 https github com nl
修改根组件之外的 DOM 元素

我的 Angular 2 应用程序的结构如下
如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI

如果没有可用的指定分区路径，SPARK SQL 会失败

如果没有可用的指定分区路径，SPARK SQL 会失败 的相关文章

随机推荐

热门标签

如果没有可用的指定分区路径，SPARK SQL 会失败的相关文章