无法从 Spark SQL 使用现有的 Hive 永久 UDF

2024-02-12

我之前已经向 hive 注册了一个 UDF。是永久的不是TEMPORARY。它直线工作。

CREATE FUNCTION normaliseURL AS 'com.example.hive.udfs.NormaliseURL' USING JAR 'hdfs://udfs/hive-udfs.jar';

我已将 Spark 配置为使用配置单元元存储。该配置正在运行，因为我可以查询配置单元表。我可以看到 UDF；

In [9]: spark.sql('describe function normaliseURL').show(truncate=False)
+-------------------------------------------+
|function_desc                              |
+-------------------------------------------+
|Function: default.normaliseURL             |
|Class: com.example.hive.udfs.NormaliseURL  |
|Usage: N/A.                                |
+-------------------------------------------+

但是我无法在 sql 语句中使用 UDF；

spark.sql('SELECT normaliseURL("value")')
AnalysisException: "Undefined function: 'default.normaliseURL'. This function is neither a registered temporary function nor a permanent function registered in the database 'default'.; line 1 pos 7"

如果我尝试使用 Spark 注册 UDF（绕过元存储），则无法注册它，这表明它已经存在。

In [12]: spark.sql("create function normaliseURL as 'com.example.hive.udfs.NormaliseURL'")
AnalysisException: "Function 'default.normaliseURL' already exists in database 'default';"

我正在使用 Spark 2.0，hive 元存储 1.1.0。 UDF是scala，我的spark驱动程序代码是python。

我很困惑。

我关于 Spark 可以利用元存储定义的永久 UDF 的假设是否正确？
我是否在配置单元中正确创建了该函数？

问题是 Spark 2.0 无法执行 JAR 位于 HDFS 上的函数。

Spark SQL：Thriftserver 无法运行已注册的 Hive UDTF https://issues.apache.org/jira/browse/SPARK-18832

一种解决方法是将该函数定义为 Spark 作业中的临时函数，并将 jar 路径指向本地边缘节点路径。然后在同一个 Spark 作业中调用该函数。

CREATE TEMPORARY FUNCTION functionName as 'com.test.HiveUDF' USING JAR '/user/home/dir1/functions.jar'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

apachesparksql

UDF

无法从 Spark SQL 使用现有的 Hive 永久 UDF 的相关文章

如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一

随机推荐

TypeScript 代码类似于揭示模块模式结构

我想将我编写的一些 JavaScript 代码转换为 TypeScript 作为一名 JavaScript 开发人员我对 TypeScript 语法和思维方式相当陌生让我头疼的是我不得不将一些使用揭示模块模式的代码转换为 TypeScr
在运行时从 simd 寄存器获取任意浮点数？

我想从 simd 寄存器访问任意浮点数我知道我可以做这样的事情 float get const m128i a const int idx editor s note this type puns the FP bit pattern t
iOS 7 和 iOS 8 中 -(void)viewDidAppear:(BOOL)animated on Partial Curl VC 上的不同行为

void viewDidAppear BOOL animated super viewDidAppear animated Reset all NSUserDefaults values 我的应用程序以前在 iOS 7 中运行良好但升级到
更新 Jest 测试库后出现意外标记（SyntaxError）

使用 Jest 运行测试套件时我遇到了要求我更新软件包的警告 npm WARN deprecated email protected cdn cgi l email protection jest dom has moved to tes
用于从 REST API 读取数据的 Apache Beam Pipeline 在本地运行，但不在 Dataflow 上运行

我一直在尝试让我的管道在数据流上使用经典模板运行管道应该读取运行时参数from date and to date并将它们传递给 REST API 从 API 返回的答案应该写入 bigquery 表中它在数据流上运行没有任何错误但我的
WCF 剩余错误处理

我在使用 WCF 4 0 RESTful 服务时遇到了令人兴奋的问题我正在尝试创建一个休息服务如果出现错误它将返回一个描述问题的 xml 文档前任
useSelector 导致多次重新渲染

当使用react devtools时它告诉我我的根组件重新渲染的原因是因为钩子发生了变化当我删除任何 useSelectors 时我的根组件仅渲染一次启用后它渲染 6 次对于为什么会发生这种情况有哪些猜测 import Data
从 NSTextView Objective-C 获取选择（突出显示的文本）字符串

如何从 a 中获取所选文本的字符串NSTextView as an NSString 非常感谢您的帮助一个 NSText 可以有多个选择使用 TextEditapp 检查一下用鼠标选择一个字符串同时按下 CMD 因此您可以选择任意数
如何用 ::FileRotate 替换 Log::Dispatch::File？

我继承了一个正在使用的大型应用程序日志调度文件 https metacpan org pod Log Dispatch File 这设置了一个 log对象你称之为 log gt info You are here 在整个应用程序中有数
模块内定义的类的回调

Ruby 已经有几个内置回调 http www nach vorne de 2007 3 18 list of callback methods 这种情况有回调吗有点像method added 但用于模块内的类或常量而不是类内的实例方
awk/sed：多列填充的后处理

我正在使用以下 bash 函数该函数对 CSV 文件进行操作并为每个 AWK 代码执行对列数据进行一些数学运算并最终将处理后的 CSV 保存在新文件中 home PWD folder with the outputs rescore
将字符串从一个活动发送到另一个活动的片段

我有两个活动 A 和 B 和一个片段 F 片段 F 包含在活动 B 中我想将字符串从活动 A 发送到片段 F 怎样才能做到这一点呢谢谢这几乎与您在活动之间交换数据相同您应该在开始时使用 getActivity 以便在片段中访问检查
javafx scene builder 1.1 中的 JAR/FXML Manager 选项位于何处？

这就是我正在努力寻找的这就是我的 javafx scene builder 1 1 的样子我已经研究了所有选项但我无法弄清楚我很想知道为什么您想要使用 2013 年推出的 Scene Builder 1 1 我猜是因为您必须使用 J
使用范围返回 ActiveRecord 中多个日期时间范围内的结果

我有一个Session模型有一个 created at日期和一个 start time日期都存储在数据库中 time 我目前正在一个巨大的表格上输出一堆结果并允许用户使用范围按单个日期和可选的时间范围过滤结果如下所示 class Se
如何在 Android 布局元素中绑定多个属性

我正在使用 MvvmCross 将我的 ViewModel 数据绑定到 Android 视图布局从 SimpleBinding 示例中我可以看到要将值绑定到属性我这样做
itextsharp 将 Pdfptable 放置在所需位置

标题内容和 Pdftable 重叠我怎样才能放置PdfPTable 在 pdf 页面中的任何位置使用 x y 定位如 100 200 或 15 100 在pdf页面的任何地方使用 PdfEventHelper 的标题表 public
NodeMailer 无效登录

我是node js 编程的新手我正在使用nodemailer 模块发送电子邮件 const nodemailer require nodemailer credentials require credentials js var mail
VSTS Nuget 安装程序无法使用包源进行身份验证

我有一个关于 VSTS 的包提要提供了我在一个也在 VSTS 上构建的解决方案中引用的几个包构建在包恢复阶段突然开始失败日志表明它找不到 nuget 应该恢复的 dll 正在恢复 NuGet 包 Basd Diagnostics 0
为什么微软不想用 NaN 来修复 Equals 和 GetHashCode 的错误实现？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
无法从 Spark SQL 使用现有的 Hive 永久 UDF

我之前已经向 hive 注册了一个 UDF 是永久的不是TEMPORARY 它直线工作 CREATE FUNCTION normaliseURL AS com example hive udfs NormaliseURL USING JAR

无法从 Spark SQL 使用现有的 Hive 永久 UDF

无法从 Spark SQL 使用现有的 Hive 永久 UDF 的相关文章

随机推荐

热门标签