将数组传递给 Spark Lit 函数

2023-12-26

假设我有一个 numpy 数组a包含数字 1-10：
[1 2 3 4 5 6 7 8 9 10]

我还有一个 Spark 数据框，我想向其中添加我的 numpy 数组a。我认为一列文字就可以完成这项工作。这不起作用：

df = df.withColumn("NewColumn", F.lit(a))

不支持的文字类型类 java.util.ArrayList

但这有效：

df = df.withColumn("NewColumn", F.lit(a[0]))

怎么做？

之前的 DF 示例：

col1
a b c d e f g h i j

预期结果：

col1	NewColumn
a b c d e f g h i j	1 2 3 4 5 6 7 8 9 10

Spark 中的列表理解`array`

a = [1,2,3,4,5,6,7,8,9,10]
df = spark.createDataFrame([['a b c d e f g h i j '],], ['col1'])
df = df.withColumn("NewColumn", F.array([F.lit(x) for x in a]))

df.show(truncate=False)
df.printSchema()
#  +--------------------+-------------------------------+
#  |col1                |NewColumn                      |
#  +--------------------+-------------------------------+
#  |a b c d e f g h i j |[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]|
#  +--------------------+-------------------------------+
#  root
#   |-- col1: string (nullable = true)
#   |-- NewColumn: array (nullable = false)
#   |    |-- element: integer (containsNull = false)

@pault 评论道（Python 2.7）:

您可以使用隐藏循环map:
df.withColumn("NewColumn", F.array(map(F.lit, a)))

添加@abegehrPython 3版本：

df.withColumn("NewColumn", F.array(*map(F.lit, a)))

Spark's `udf`

# Defining UDF
def arrayUdf():
    return a
callArrayUdf = F.udf(arrayUdf, T.ArrayType(T.IntegerType()))

# Calling UDF
df = df.withColumn("NewColumn", callArrayUdf())

输出是一样的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

literals

将数组传递给 Spark Lit 函数的相关文章

火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

逗号分隔具有相同行数的值

数据库结构 items id name users id username 用户项目 id user id item id 我目前有一个count on user items显示拥有最多项目的用户 john 13 bill 9 lily 9
使用 OpenCV 检查图像的相似性

OpenCV 是否支持比较两个图像返回一些值可能是百分比来指示这些图像的相似程度例如如果相同的图像被传递两次则返回 100 如果图像完全不同则返回 0 我已经在 StackOverflow 上阅读了很多类似的主题我也做了一些
如何在 Laravel 中进行简单的重定向？

我在 Laravel 中有一个函数最后我想重定向到另一个函数我如何在 Laravel 中做到这一点我尝试过类似的东西 return redirect gt route listofclubs 这不起作用 listofclubs 的路线
如何在 Bootstrap 中垂直居中容器？

我正在寻找一种垂直居中的方法container里面的divjumbotron并将其设置在页面中间 The jumbotron必须适应屏幕的整个高度和宽度这 containerdiv 的宽度为1025px并且应该位于页面的中间垂直居中我
在 TensorFlow 中，如何使用 python 从张量中获取非零值及其索引？

我想做这样的事情假设我们有一个张量 A A 1 0 0 4 我想从中获取非零值及其索引 Nonzero values 1 4 Nonzero indices 0 0 1 1 Numpy 中也有类似的操作 np flatnonzero A
Google 跟踪代码管理器：事件跟踪不起作用

我尝试使用标签管理器跟踪我网站上所有邮件链接的点击次数但它根本不起作用使用 firebug 查看网络传输我可以看到没有任何内容提交给 Google 当然我的 Analytics 界面中也没有出现任何内容我已使用 jQuery 将推
C 动作和变量

为什么当我使用 char paraula 15 int longparaula 0 copia paraula paraula longparaula 它说longparaula 0 paraula 没问题并且包含我输入的字符的值但 l
将大的 2^63 十进制转换为二进制

我需要将大十进制转换为二进制我该怎么做有问题的十进制是这个 3324679375210329505 怎么样 String binary Long toString 3324679375210329505L 2
获取有关自动变量的帮助不起作用

我正在研究 PowerShell 建议致电网站和书籍Get Help about Automatic Variables例如获取返回的自动变量列表我尝试打电话Get Help使用以下参数但我总是得到返回的 cmdlet 列表 abou
PyQt 事件发出两次

我正在尝试实现拖放项目QListWidget to QGraphicsView 我继承了自己的班级MooView from QGraphicsView并封装dragMove dragEnter and drop事件但在测试时我注意到
使用“ec2-user”登录，而不是使用 aws 中的用户数据 root 登录

我有一个基于 RHEL 6 4 64 位 AMI 的 Amazon EC2 实例写完一些shell脚本后我用它创建了自己的 AMI 映像我正在编写用户数据部分它将删除 home ec2 user sudo rm rf home ec
OpenSSL 在 PKCS12 导出期间挂起，并显示“将‘屏幕’加载到随机状态”

我正在使用 OpenSSL 不是 makecert 生成自签名 SSL 证书以在 IIS 中使用 openssl req x509 newkey rsa 2048 keyout key pem out cert pem days 365
创建和使用 Laravel 4 命令

编辑找出我出错的地方并将答案放在最后我正在尝试创建一个 Laravel 命令我可以看到它与 Laravel 3 中的任务相比发生了很大的变化但是我似乎无法让它运行这些是我已采取的步骤 php artisan 命令 make 导
禁用远程调试时应用程序在启动时崩溃

我正在尝试在我的手机 iPhone 上安装我的反应本机应用程序它安装正常但在启动时崩溃并显示此错误消息 undefined is not an object evaluating navigator userAgent indexOf
java.security.cert.CertificateException：证书不符合算法约束

我有一个地图应用程序可以添加地理信息系统 9 3 给定 URL 的底图我想要添加的 URL 之一来自客户的 URL 并且是安全的我的地图应用程序之前使用 Java 6 并且能够毫无问题地添加安全 URL 我现在升级到 Java 7 并得
对于集群中具有两个节点的专用计算机，ES_HEAP_SIZE 的正确值

我有一台 ES 2 2 0 的专用机器它运行在 Windows Server 2012 R2 上拥有 128GB 内存关于ES 我计划在这台机器上的集群中有两个节点根据elasticsearch yml中ES的推荐确保ES HEA
如何在django视图中获取模板路径

所以我试图在我的视图中获取模板路径有没有一种动态的方法来做到这一点因为目前我正在对路径进行硬编码 html C Users user Desktop project src templates project html 模板路径 TEM
让 html 成为标签 href 等待 onclick 中的异步函数返回？

我有一个带有 onclick 的链接该链接应该在 href 之前执行 a class btn btn primary href mode full Promeni rezim prikaza a 被调用的js函数的相关部分如下所示 fun
在 Windows 操作系统上批量运行多个 m 文件，“无需”关闭先前运行的 m 文件

我的目的是顺序运行一系列m文件和python程序感谢 Mofi Shai 和 moarningsun 我发现这个批处理文件在我的 Windows 操作系统上是成功的 start 01 wait C Program Files MATLAB
将数组传递给 Spark Lit 函数

假设我有一个 numpy 数组a包含数字 1 10 1 2 3 4 5 6 7 8 9 10 我还有一个 Spark 数据框我想向其中添加我的 numpy 数组a 我认为一列文字就可以完成这项工作这不起作用 df df withColu

将数组传递给 Spark Lit 函数

Spark 中的列表理解array

Spark's udf

将数组传递给 Spark Lit 函数 的相关文章

随机推荐

热门标签

Spark 中的列表理解`array`

Spark's `udf`

将数组传递给 Spark Lit 函数的相关文章