如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

2024-01-01

I use getLastProcessedVal2hive 中的 UDF 从表中获取最新分区。这个UDF是用java编写的。我想使用 hive 上下文中的 pyspark 中的相同 UDF。

dfsql_sel_nxt_batch_id_ini=sqlContext.sql(''' select l4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')

Error:

错误 exec.FunctionRegistry：无法加载 UDF 类： java.lang.ClassNotFoundException：

开始你的pyspark外壳为：

pyspark --jars /path/to.udf.jar <all-other-param>

提交您的 pyspark 作业--jars选项为：

spark-submit --jars /path/to/udf.jar <all-other-param>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

PySpark

apachesparksql

如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF 的相关文章

如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

Python Tkinter 输入小部件不接受输入

我在 Tkinter 条目小部件方面遇到了一个非常奇怪的问题当我尝试向其中输入内容时他们不接受我的输入在重新启动电脑并重新安装 Python 之后我弄清楚了为什么会发生这种情况在root mainloop 在代码中代码看起来像这
拆分 SAS 数据集

我有一个 SAS 数据集如下所示 id dept 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 B 10 B 11 B 12 B 13 B 每个观察代表一个人我想将数据集分成团队数据集每个数据集最多可以有 3
为什么我不能从 long 中导出？

我的函数返回一些长值其中包含低 32 位和高 32 位中的两个值我认为处理返回值的最佳方法是从 long 派生我的自定义类型并提供类型扩展器例如 GetLowerValue GetHigherValue 问题是 NET 不允许从
XGBOOST：sample_Weights 与scale_pos_weight

我有一个高度不平衡的数据集想知道在哪里考虑权重因此我试图理解之间的区别scale pos weight论证中XGBClassifier和sample weight的参数fit方法如果可以同时使用这两种方法或者如何选择其中一种方法我们
增加ggplot2中axis.title和axis.text之间的间距（版本> = 0.9.0）

我目前正在使用 github 上的最新版本的 ggplot2 在 0 8 9 版本中我可以执行以下操作来增加 axis title 和 axis text 之间的空间 Before ggplot diamonds aes clarity
如何在使用 asm 库进行检测的方法中查找空的局部变量

在为其不同方法检测类时为了使方法在文本文件中执行写入操作我首先将字符串存储在显式定义的局部变量 3160 中如何选择这些变量以防止与已有变量发生冲突就像这段代码一样代码每次进入任何方法时都会将类名写入文本文件为了做到这一点必须使
如何将 tfjs-node 与从源代码构建的 libtensorflow 结合使用

我看到可以使用libtensorflow如自述文件中所述是从源代码构建的https github com tensorflow tfjs node optional build libtensorflow from tensorflow
C/C++ 中负数返回 false 吗？

在 C C 中将整数评估为布尔值时负数是真还是假无论编译器如何它们总是正确错误吗所有非零值将被转换为true 和零值false 当负数非零时它们会被转换为true 引用 C 11 标准强调我的 4 12 布尔转换 conv b
制作锁子甲背景主题

我想制作一个像这样的锁子甲我尝试过使用线性渐变但似乎不起作用 background linear gradient 0c0c0c 222222 important 我希望输出与 imgur 中显示的图像类似线性渐变有用吗你可以这样做
对 BITMAPINFO (HBITMAP) 中像素数据的原始/直接访问

我试图弄清楚如何从屏幕访问原始像素信息到目前为止我一直将屏幕捕获到 HBITMAP 填充 BITMAPINFO 然后创建此 BITMAPINFO 变量的指针以直接从内存读取我知道必须从文件中删除标头因此我将指针直接前进到位图数据
Express.js - 有什么方法可以显示文件/目录列表？

With Express js http expressjs com 有没有一种方法可以像 apache 一样显示文件目录列表当您访问没有索引文件的目录的 URL 时它会显示所有该目录内容的列表是否有一个我不知道的扩展或包可以执行此
调用未定义的方法 Illuminate\Database\Query\Builder::notify()

发行于拉拉维尔 5 3 6当在忘记密码中提交请求时错误详情调用未定义的方法 Illuminate Database Query Builder notify 问题在以下文件中供应商 laravel framework src Illu
如何扩展integer_sequence？

我有一个如下所示的函数 template
如何将 std::function 对象传递给采用函数指针的函数？

我正在尝试与用以下语言编写的库进行交互c 使用这种熟悉的模式 void some c handler void func void void data 现在我想写一个C 该函数的包装器如下所示 void my new cpp handle
html5：具有固定顶部/底部和可滚动中间的三行Flexbox

是否有可能制作一个html5固定的 Flexbox 布局header footer和一个可滚动的article如下所示的部分firefox 24 and chromium 31 header article footer 我已经尝试过这个
带有逻辑括号和优先顺序的 Django 模板 IF 条件

在我的 django 模板中我有 if object not readonly and user is worker or user is admin Django doc https docs djangoproject com en 1
Selenium 中如何处理这个 StaleElementReferenceException？

我目前正在阅读一本 Django TDD 简介书籍但遇到了 StaleElementReferenceException 并陷入困境我一直在谷歌上搜索并在 StackOverflow 中寻找解决我的错误的方法但我无法解决它我的相关代
ThreeJS：从场景中删除对象

我正在使用 ThreeJS 开发一个 Web 应用程序该应用程序显示实体列表每个实体都有相应的查看和隐藏按钮例如实体名称查看隐藏我认为看到您对 addEntity 和 removeEntity 代码的用法会很有帮助但我的第
如何延长快速会话超时

我将express js 4与express session一起使用并设置maxAge到一小时但是如果用户继续访问该网站则应延长超时时间否则即使用户仍在使用该网站也会被注销 app use session secret xxx
如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

I use getLastProcessedVal2hive 中的 UDF 从表中获取最新分区这个UDF是用java编写的我想使用 hive 上下文中的 pyspark 中的相同 UDF dfsql sel nxt batch id i

如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF 的相关文章

随机推荐

热门标签