如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

2024-03-25

我正在使用 Spark cluster 2.0，我想将向量转换为org.apache.spark.mllib.linalg.VectorUDT to org.apache.spark.ml.linalg.VectorUDT.

# Import LinearRegression class
from pyspark.ml.regression import LinearRegression

# Define LinearRegression algorithm
lr = LinearRegression()

modelA = lr.fit(data, {lr.regParam:0.0})

Error:

u'要求失败：列功能必须是 org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 类型，但实际上是 org.apache.spark.mllib.linalg.VectorUDT@f71b0bce。'

有什么想法我将如何在矢量类型之间进行转换。

多谢。

在 PySpark 中，您需要一个 ormap超过 RDD。让我们使用第一个选项。首先是一些进口：

from pyspark.ml.linalg import VectorUDT
from pyspark.sql.functions import udf

和一个函数：

as_ml = udf(lambda v: v.asML() if v is not None else None, VectorUDT())

带有示例数据：

from pyspark.mllib.linalg import Vectors as MLLibVectors

df = sc.parallelize([
    (MLLibVectors.sparse(4, [0, 2], [1, -1]), ),
    (MLLibVectors.dense([1, 2, 3, 4]), )
]).toDF(["features"])

result = df.withColumn("features", as_ml("features"))

结果是

+--------------------+
|            features|
+--------------------+
|(4,[0,2],[1.0,-1.0])|
|   [1.0,2.0,3.0,4.0]|
+--------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

machinelearning

PySpark

apachesparkmllib

apachesparkml

如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT 的相关文章

Google Cloud ML：输出的外部尺寸必须未知

我们在本地得到了一个工作的导出模型正在创建一个新的模型版本谷歌云机器学习如下 Create Version failed Model validation failed Outer dimension for outputs must b
如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据我必须根据两点之间的距离进行聚类现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值有什
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
从 keras 模型中将特征提取到数据集中

我使用以下代码由here https github com keras team keras blob master examples mnist cnn py 运行 CNN 来训练 MNIST 图像 from future import
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
Spark：有没有办法打印出spark-shell和spark的类路径？

我可以在 Spark shell 中成功运行 Spark 作业但是当它打包并通过 Spark submit 运行时我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配有没有办法可以比较两个类路径某种日志记录语句
Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒

我没有配置任何超时值而是使用默认设置在哪里配置3600秒超时怎么解决呢错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
TensorFlow - 为什么这个 softmax 回归没有学到任何东西？

我的目标是用 TensorFlow 做大事但我正在尝试从小事做起我有一些小的灰度方块有一点噪音我想根据它们的颜色对它们进行分类例如 3 个类别黑色灰色白色我编写了一个小 Python 类来生成正方形和 1 hot 向量并
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
使用 pyspark 连接 PostgreSQL

我正在尝试使用 pyspark 连接到数据库并且使用以下代码 sqlctx SQLContext sc df sqlctx load url jdbc postgresql hostname database dbtable SELECT
如何使用列的平均值将列添加到 DataFrame

有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的可以使用以下方法避免额外的操作broadcas
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188

随机推荐

Typesafe Activator 运行错误（无法检索 jansi 1.11）

我在 Windows 8 上安装了 Typesafe Activator 以使用 Play Framework 2 3 当我尝试运行 Activator 时它停止并出现以下错误 unresolved dependency org fuse
局部变量可以在方法外使用吗？

我陷入了有关局部变量的问题以下不是我的原始代码但我用一个简单的例子来表达我的问题 import java util Scanner public static void main String args Scanner userScan
在 Neo4jClient Cypher 查询中返回多列

我正在使用 Azure 发现性能很慢为了减少往返时间我将以下查询合并为一个查询 var queryItem graphClient Cypher Start new n Node ByIndexLookup item idx SKU s
如何使用 flutter web 从 Firebase 电话身份验证中删除验证码验证？

我想删除或隐藏谷歌验证码验证我的用于验证手机号码并登录的代码 await FirebaseAuth instance verifyPhoneNumber phoneNumber 91 customMobileController text
PostgreSQL psycopg2 Python3.7.4 UnicodeDecodeError：'ascii'编解码器无法解码字节

我尝试使用 ANSI 驱动程序从 PostgreSQL 数据库进行查询但对于某些查询失败出现以下错误 UnicodeDecodeError ascii codec can t decode byte 0xfd in position 1
JavaScript 命令在 Safari 中未按顺序执行

我在处理另一个问题时发现了这个错误列出的 JavaScript 命令的顺序与其在 Safari 中的执行顺序不同 Example alert here document write This is the hidden message a
使用 json.net 反序列化时是否保留数组顺序？

当我使用 json net 库将 json 对象反序列化为 c 对象时数组属性中元素的顺序是否会保持不变例如 public class MySonsThreeFootRadius public Boolean IsMessy get s
Wymeditor 跨子域。（跨站点权限问题。）

我在 sub1 domain com 上有 wymeditor 它是通过 sub2 domains com 上的页面访问的这行给出了一个错误 var styles this doc styleSheets 0 权限被拒绝http remo
如何解决这个奇怪的Python编码问题？

我正在对来自网络的字符串语料库执行一些 NLP 任务正如您所期望的存在编码问题以下是一些示例 they don t serve sushi the apostrophe in don t is not standard but xe2
未捕获的 PHP 异常 Doctrine\ORM\ORMException：“未知实体命名空间别名‘AppBundle’。”

我刚刚开始使用 Composer 开始我的第一个项目并想为其设置数据库和类然而我被困住了我在 prod log 中收到上述错误我在这里遵循了本教程 http symfony com doc current book doctrine
printf 转换 long long 时出现问题

我一直在研究一个项目欧拉问题该问题本质上迫使您使用具有大存储空间的数据类型 include
Eclipse 未找到添加到构建路径的类（Java 动态 Web 项目）

我正在接手学校的一个网络项目我正在尝试在 eclipse 中部署该项目该项目使用了一组库即javax mail com sun mail org joda and org apache 该项目无法编译因为它无法找到这些我将它们放在
PowerShell 连接到 Postgres DB

您能否告知是否有一种方法可以从 PowerShell 连接到 Postgres SQL DB 而无需安装任何数据库驱动程序我正在寻找能够仅使用 NET 数据库功能进行连接的解决方案谢谢 Matthew 根本不需要客户端驱动程序您只需执
tidyverse 计算多列中每行的排名

我有以下数据框 dat lt data frame id c a b c d x1 c 1 3 5 7 x2 c 4 2 6 0 x3 c 2 2 5 9 我现在想计算排名per row跨越我的三个 x 列并希望将该结果存储到我的dat数
自动将进入/退出功能日志添加到项目中

我有一个第三方源代码我必须对其进行调查我想查看函数的调用顺序但我不想浪费时间输入 printf Entered into s FUNCTION and printf Exited from s FUNCTION 对于每个函数我也不想
mongodb获取计数而不重复查找

在 MongoDb 中执行查询时我需要获取所有匹配项的总数以及作为有限分页子集的文档本身我可以通过两个查询来实现这一目标但我不知道如何通过一个查询来实现这一目标我希望有一个 mongo 功能在某种意义上相当于 SQL CALC
使用 Angularjs 将视图状态存储在 URL 中

将视图状态存储为 URL 的一部分的一般共识是什么如果有 Angularjs我该如何去做呢我有一个相当复杂的视图路线有许多要设置的过滤器选项卡等这些都会导致视图状态我看到了将所有这些视图组件的状态存储为 URL 的一部分的优势
如何使用 python sub 删除

我有一个 html 文件我想用空格替换空段落 mystring This p p p is a test p p p p p result mystring sub p p nbsp 这是行不通的 Please 不要尝试使用正则表达式解析
使用简单 PHP 代理的跨域 getJson 请求

您好我正在尝试从仅返回 JSON 而不是 JSONP 的 api 获取数据每次我尝试以 JSONP 方式连接数据时它都不起作用因为我不期望 JSON 所以我想我必须使用 PHP 代理来解决跨域问题以便我可以解释 JSON 请求
如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

我正在使用 Spark cluster 2 0 我想将向量转换为org apache spark mllib linalg VectorUDT to org apache spark ml linalg VectorUDT Import L

如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT 的相关文章

随机推荐

热门标签