是否可以从 Scala(spark) 调用 python 函数

2024-03-13

我正在创建一个 Spark 作业，需要使用用 python 编写的函数将列添加到数据帧中。其余的处理是使用 Scala 完成的。

我找到了如何从 pyspark 调用 Java/Scala 函数的示例：

https://community.hortonworks.com/questions/110844/is-it-possible-to-call-a-scala-function-in-pythonp.html https://community.hortonworks.com/questions/110844/is-it-possible-to-call-a-scala-function-in-pythonp.html
http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html

我发现以其他方式发送数据的唯一示例是使用pipe

如何在同一个 Spark 项目中同时使用 Scala 和 Python？ https://stackoverflow.com/questions/32975636/how-to-use-both-scala-and-python-in-a-same-spark-project

我是否可以将整个数据帧发送到 python 函数，让该函数操作数据并添加其他列，然后将生成的数据帧发送回调用 Scala 函数？

如果这是不可能的，我当前的解决方案是运行 pyspark 进程并调用多个 Scala 函数来操作数据帧，这并不理想。

只需从 Python 注册一个 UDF，然后从 Scala 评估一个针对 DataFrame 使用该函数的 SQL 语句 - 就像一个魅力一样，只需尝试一下即可；）https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebook是在 Toree 中运行笔记本的好方法，它混合了调用相同 Spark 上下文的 Scala 和 Python 代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scala

apachespark

PySpark

apachesparksql

是否可以从 Scala(spark) 调用 python 函数的相关文章

在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

实心画笔属性不绑定

我有一个 X 类有一些数据 private string yyy public string YYY get return yyy set yyy value NotifyPropertyChanged YYY private Solid
如何确定平移手势的真实结束速度？

使用时UIPanGestureRecognizer并检测UIGestureRecognizerStateEnded 那么手势的速度就不是真实的速度相反它是先前调用我的操作方法的旧速度如何获取手势结束时的真实速度我创建我的UIPanG
无需编译即可检查变量实现接口

我想知道具体类型是否实现特定接口并将其打印出来我编写了一个示例 0 其中包含自定义结构 MyPoint 而不是接口类型 MyPoint 具有 io Reader 接口中定义的 Read 函数 type MyPoint struct X Y
找到删除分支的人？

我需要找到在正在合作的项目中删除分支的人通过检查 repo 文件夹文件 git refs heads 我找不到包含该信息的任何元数据找到这个他有什么办法您可以在组织仪表板的活动部分下查看此详细信息只有组织所有者有权访问此页面 h
如何在 Android Studio 中忽略库的 minSdkVersion？

在我的项目中 minSdkVersion 10 在库中是 11 I get BUILD FAILED Manifest merger failed uses sdk minSdkVersion 10 cannot be smaller th
Angular UI 路由器忽略 HTML5 模式关闭

Angular UI Router 忽略 HTML5Mode false 并且它以无法添加书签或直接登陆的方式呈现链接 app js stateProvider state search url search views main wrap
在 Fortran 中写入现有文件而不覆盖

我有一个由 Fortran 程序编写的现有文件已格式化我想在文件开头添加几行我们的想法是在不复制原始文件的情况下完成此操作我可以在文件末尾添加一行 open 21 file myfile dat status old action
从 Java 7 升级到 Java 8 后签名引用失败

我最近已将 Java 从 7 升级到 8 并且我面临使用 saml 请求的服务之一的问题我收到以下错误 Jan 05 2015 3 42 06 PM org jcp xml dsig internal dom DOMReference v
在项目的根目录下创建 .env 文件

我正在尝试从 github 下载一个 Django 项目其中一个要求是由于该项目使用 python de Couple 因此您需要在项目的根目录上创建一个名为 env 的文件其中包含三个值如下所示 DEBUG True SECRET
将单词 (.docx) 转换为 docbook

我的任务是找到一种将大量 docx 文件转换为 docbook 5 的方法目前我们在 openoffice 中打开该文件并保存到 docbook 这是一项耗时的任务但我相信有更好的方法然后这些文件将被进一步处理为我们的自定义rel
如何在 CMake 中删除字符串中的一行文本，解决 CMake 缺乏基于行的正则表达式匹配的问题？

我发现 CMake 并没有按照我预期的方式执行 RegEx 显然其他人也遇到了同样的问题 https cmake org pipermail cmake 2007 October 017107 html问题是 CMake 不是基于行的当
Pip无法安装枕头

当尝试使用 pip 安装枕头时会产生此错误我尝试过重新安装安装工具但没有效果我在安装了 Diet Pi 的 pi 0 上运行 pip install pillow Looking in indexes https pypi org
Objective-C 中的文本解析？

是否有任何库可以在 Objective C iPhone 应用程序中解析 Textile Textile 到 HTML C 库也可以工作 Update 我在 C Obj C 中找不到任何足够开发的库但我确实找到了一个用 Javascrip
多态性、泛型和匿名类型 C#

考虑以下场景文档 gt 部分 gt 正文 gt 项目文档有部分部分包含正文正文有一些文本和项目列表这些项目就是问题的内容有时项目是基本的字符串列表但有时项目包含自定义数据类型的列表 So public class Docume
为什么 git Remote prune origin 会删除我的本地标签？

我有几个标记引用来自本地分支和远程跟踪分支的提交或这些提交的祖先我想删除对分支和标签的引用origin跑完后git fetch git remote prune origin dry run 但输出表明它会修剪我的本地标签即使是我手动
YDN DB 包含问题

我已经包含了 YDN DB 文件 ydn db isw core crypt qry dev js 来加密角度应用程序中的索引数据库它被添加到 socket io 1 4 5 js 之后的 index html 主体部分中加载器 spi
从 saber API 发出票据

我们已经成功实施了 sabre 低价搜索和预订工作流程并创建了 PNR 现在我想使用 api 开具该 PNR 的机票 My workflow is 1 BargainFinderMaxRQ find 2 EnhancedAirBook b
通过surfaceview使用zxing条码阅读器

我正在创建一个扫码机应用程序我想使用Zxing要读取条形码我的应用程序有一个表面视图并向其中显示相机但现在我想从 SurfaceView 相机扫描条形码我使用它的原因是我的布局中的表面视图下有两个 Edittexts 来显示条形码的
如何处理损坏的 Git 对象文件？

当我接近配额时我做了一次 Git pull 结果我认为得到了一个损坏的文件 git pull walk dffbfa18916a9db95ef8fafc6d7d769c29a445aa fatal object d4a0e759949
是否可以从 Scala(spark) 调用 python 函数

我正在创建一个 Spark 作业需要使用用 python 编写的函数将列添加到数据帧中其余的处理是使用 Scala 完成的我找到了如何从 pyspark 调用 Java Scala 函数的示例 https community hort

是否可以从 Scala(spark) 调用 python 函数

是否可以从 Scala(spark) 调用 python 函数 的相关文章

随机推荐

热门标签

是否可以从 Scala(spark) 调用 python 函数的相关文章