如何将向量拆分为列 - 使用 PySpark [重复]

2023-12-24

Context:我有一个DataFrame有 2 列：单词和向量。其中“向量”的列类型是VectorUDT.

一个例子：

word    |  vector
assert  | [435,323,324,212...]

我想得到这个：

word   |  v1 | v2  | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....

问题：

如何使用 PySpark 将每个维度的包含向量的列拆分为几列？

提前致谢

火花 >= 3.0.0

从 Spark 3.0.0 开始，这可以在不使用 UDF 的情况下完成。

from pyspark.ml.functions import vector_to_array

(df
    .withColumn("xs", vector_to_array("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## |   word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert|  1.0|  2.0|  3.0|
## |require|  0.0|  2.0|  0.0|
## +-------+-----+-----+-----+

火花

一种可能的方法是在 RDD 之间进行转换：

from pyspark.ml.linalg import Vectors

df = sc.parallelize([
    ("assert", Vectors.dense([1, 2, 3])),
    ("require", Vectors.sparse(3, {1: 2}))
]).toDF(["word", "vector"])

def extract(row):
    return (row.word, ) + tuple(row.vector.toArray().tolist())

df.rdd.map(extract).toDF(["word"])  # Vector values will be named _2, _3, ...

## +-------+---+---+---+
## |   word| _2| _3| _4|
## +-------+---+---+---+
## | assert|1.0|2.0|3.0|
## |require|0.0|2.0|0.0|
## +-------+---+---+---+

另一种解决方案是创建 UDF：

from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    # Important: asNondeterministic requires Spark 2.3 or later
    # It can be safely removed i.e.
    # return udf(to_array_, ArrayType(DoubleType()))(col)
    # but at the cost of decreased performance
    return udf(to_array_, ArrayType(DoubleType())).asNondeterministic()(col)

(df
    .withColumn("xs", to_array(col("vector")))
    .select(["word"] + [col("xs")[i] for i in range(3)]))

## +-------+-----+-----+-----+
## |   word|xs[0]|xs[1]|xs[2]|
## +-------+-----+-----+-----+
## | assert|  1.0|  2.0|  3.0|
## |require|  0.0|  2.0|  0.0|
## +-------+-----+-----+-----+

对于 Scala 等效项，请参阅Spark Scala：如何将 Dataframe[vector] 转换为 DataFrame[f1:Double, ..., fn: Double)] https://stackoverflow.com/q/38110038.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

apachesparkml

如何将向量拆分为列 - 使用 PySpark [重复] 的相关文章

Python：多处理和请求

以下是我正在运行的使用多处理并行触发 HTTP 请求的代码片段在控制台上运行后它挂在 requests get url 处既不继续前进也不抛出错误 def echo 100 q print before r requests get
如何将经度和纬度转换为国家或城市？

我需要将经度和纬度坐标转换为国家或城市 python中有这样的例子吗提前致谢我使用谷歌的API from urllib2 import urlopen import json def getplace lat lon url http
使用 GeoDjango 在坐标系之间进行转换

我正在尝试将坐标信息添加到我的数据库中添加django contrib gis支持我的应用程序我正在写一个south数据迁移从数据库中获取地址并向 Google 询问坐标到目前为止我认为我最好的选择是使用geopy为了这接下来
Keras，如何获取每一层的输出？

我已经用 CNN 训练了一个二元分类模型这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
Python - 为什么这段代码被视为生成器？

我有一个名为 mb 的列表其格式为 Company Name Rep Mth 1 Calls Mth 1 Inv Totals Mth 1 Inv Vol Mth 2 等等在下面的代码中我只是添加了一个包含 38 个 0 的新列表这
使用 K 均值聚类 OpenCV 进行交通标志分割

I used K Means Clustering to perform segmentation on this traffic sign as shown below 这些是我的代码读取图像并模糊 img cv imread 000
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
超时时杀死或终止子进程？

我想尽可能快地重复执行子进程然而有时这个过程会花费太长的时间所以我想杀死它我使用 signal signal 如下所示 ppid pipeexe pid signal signal signal SIGALRM stop handl
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
如何创建指向指针数组的 Python ctypes 指针

我需要学习如何处理char 在下面的 C 方法中通过 Python ctypes 我通过使用调用其他只需要单个指针的方法做得很好create string buffer 但此方法需要一个指向指针数组的指针 ladybugConvertToM
将 ASCII 字符转换为“”unicode 表示法的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串例如 d m Y H M 必须以 Unicode 指定其中每个在本例中为 ASCII 字符表示为
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
如何在 Tkinter 的 Button 小部件中创建多个标签？

我想知道如何在 Tkinter 中创建具有多个标签的按钮小部件如下图所示带有子标签的按钮 https i stack imgur com jOZRw jpg正如您所看到的在某些按钮中有一个子标签例如按钮 X 有另一个小标签 A 我试
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
在没有numpy的情况下在python中分配变量NaN

大多数语言都有一个 NaN 常量您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗是的使用math nan https docs python org 3 library math html
如何指定一个变量作为类或类实例的成员变量？

在最新的 Python 2 7 x 中给定类定义内的任何成员变量该成员变量是否始终处于类级别因为它是由该类的所有实例共享的单个变量在类的定义中如何指定类定义中的哪些成员变量属于该类因此由该类的所有实例共享以及哪些属于该类的
如何获取所有Python标准库模块的列表？

我想要类似的东西sys builtin module names标准库除外其他不起作用的事情 sys modules 只显示已经加载的模块 sys prefix 包含非标准库模块并且似乎无法在 virtualenv 内工作的路径我想要这
获取长度为 n 的所有（n-选择-k）组合

我怎样才能获得长度的所有组合按顺序 n从数字列表中例如给定列表 1 2 3 4 并设置n 3 我怎样才能得到这些结果 1 2 3 1 2 4 1 3 4 2 3 4 For combinations of all possible l

随机推荐

CSS：保持给定高度的元素的纵横比

上面可能重复的链接不是这种情况的解决方案因为高度对于多个断点来说将是固定值我有一些 DIVdisplay inline block 所以它们并排漂浮得很好这些 DIV 都具有相同的高度例如height 300px 稍后我将使用 A
python：查找html标签并替换其属性[重复]

这个问题在这里已经有答案了我需要执行以下操作获取html文档查找所有出现的 img 标签获取它们的 src 属性将创建的 url 传递给处理将 src 属性更改为新属性使用 Python 2 7 完成所有这些工作附我听说过
AngularJS，如何将一个变量绑定到其他两个绑定变量的串联？

我是 AngularJS 的新手正在尝试构建一个 AngularJS 练习应用程序其中用户将连接来自多个输入的 url 即协议域路径 param1 param2 param3 等该应用程序将创建一个指向该网址的链接 a proto
如何向 JTable 单元格添加下拉菜单

这可能是之前问过的一个问题在发帖之前我进行了很多搜索但找不到任何可接受的有人可以告诉我一种方法来做到这一点吗当我单击单元格时我只需要获得一个下拉菜单以便我必须从中选择一个值作为限制用户选择的一种方式如果有人可以帮助解决这个问
面向对象编程：寻找好的教程[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
GitHub Atom：如何根据名称对某些文件应用特定的语法突出显示

我该如何配置GitHub 的 Atom让它自动设置一个特定的语法高亮基于名称和或扩展名的文件名具体来说我希望它自动设置Ruby 语法高亮到 Cocoapods 的Podfiles 从 Atom 1 0 8 开始无需file types
为什么在生产环境下运行时，我无法在实时服务器上调用 Coldfusion CFC 中的函数？

我不知所措我通过 Ajax 发布到 Coldfusion8 cfc 虽然它在我的本地计算机上运行良好但在实时服务器上我无法调用此 CFC 或其扩展 CFC 中的任何函数我想做这个
Laravel 5 找不到 css 文件

我刚刚在 MAMP 上安装了 Laravel 5 项目但我的页面找不到 css 文件这是我的 app blade php 文件中 css 的链接我的 htaccess 文件有这一行 RewriteBase laravel site l
将 2 个值传递给 JavaScript 函数

我正在尝试将 2 个值传递给 javascript xmlHttp 请求这些值被传递给 JavaScript 函数我成功地将单个值传递给 javscript 函数但现在我需要传递 2 个值粗体值是我想要在 JavaScript 中的
如何获取 matplotlib Axes 实例

我需要使用一些股票数据制作烛台图为此我想使用该功能matplotlib finance candlestick https github com matplotlib matplotlib blob master lib matplotl
如何制作一个动态大小的数组？动态数组的一般用法（也许还有指针）？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试制作一个程序接受用户输入假设所有输入都是int 将其存储在没有起始大小的数组中即不是 gt array 5 进而将存
使用效果包自定义绘图

我尝试从效果包中自定义多线图无论如何是否可以将下面示例中的图例放置在绘图区域内而不是图表上方或者有谁知道如何使用 ggplot2 绘制由effects包计算的多线回归的结果我很感激任何帮助 Andy Example library
Java 可以在调用链中进行 group&order&top 吗？

我有一个 POJO 类 class A public int id public String groupName public String getGroupName return this groupName public int va
使用 XStream 序列化 Hibernate 对象的问题

我一直面临这个问题序列化时的 hibernate 对象会生成意外的 xml 其中包含 Hibernate 中的所有检测代码在序列化对象之前我们对对象进行了一些清理但是是否有标准选项可用于直接序列化对象我以前没有使用过 XStre
并发冲突：UpdateCommand 影响了预期 1 条记录中的 0 条。 DB concurrencyException 未处理

我定义了 2 个数据集和 2 个数据适配器每个数据集一个创建后我为 2 个 dataAdapter 中的每一个定义了一个 SqlCommandBuilder 到这里一切都很好我可以使用 dataAdapter1 Update dat
如何清楚地解释Keras中units参数的含义？

我想知道 LSTM 在 Keras 中是如何工作的在本教程 https machinelearningmastery com time series prediction lstm recurrent neural networks py
WCF 服务端点 localhost 混淆

我很困惑为什么有些东西会起作用我正在配置这样的 wcf 服务
如何让 Git 在控制台窗口中正确显示 UTF-8 编码的路径名？

我有 UTF 8 格式的文件名 git 可以正常处理它们它将正确创建文件并且 github 页面也可以正确显示它除了它会在控制台中显示它如下所示是否可以使 git 在控制台中正确显示超出 ASCII 127 的 UTF 8 编码字
SOAP-ENV：WSDL 中的错误

我创建了 SOAP Web 服务而且我对 SOAP 还很陌生在创建网络服务时我面临以下问题
如何将向量拆分为列 - 使用 PySpark [重复]

这个问题在这里已经有答案了 Context 我有一个DataFrame有 2 列单词和向量其中向量的列类型是VectorUDT 一个例子 word vector assert 435 323 324 212 我想得到这个 word

如何将向量拆分为列 - 使用 PySpark [重复]

如何将向量拆分为列 - 使用 PySpark [重复] 的相关文章

随机推荐

热门标签