“RDD”对象没有属性“_jdf”pyspark RDD

2024-04-13

我是 pyspark 的新手。我想对文本文件执行一些机器学习。

from pyspark import Row
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
from pyspark import SparkConf
sc = SparkContext
spark = SparkSession.builder.appName("ML").getOrCreate()

train_data = spark.read.text("20ng-train-all-terms.txt")
td= train_data.rdd #transformer df to rdd
tr_data= td.map(lambda line: line.split()).map(lambda words: Row(label=words[0],words=words[1:]))
from pyspark.ml.feature import CountVectorizer

vectorizer = CountVectorizer(inputCol ="words", outputCol="bag_of_words")
vectorizer_transformer = vectorizer.fit(td)

对于我的最后一个命令，我收到错误 “AttributeError：'RDD'对象没有属性'_jdf'

在此输入图像描述 https://i.stack.imgur.com/PlBOI.png

谁能帮助我吗？谢谢

你不应该使用rdd with CountVectorizer。相反，你应该尝试形成单词数组 in the dataframe本身作为

train_data = spark.read.text("20ng-train-all-terms.txt")

from pyspark.sql import functions as F
td= train_data.select(F.split("value", " ").alias("words")).select(F.col("words")[0].alias("label"), F.col("words"))

from pyspark.ml.feature import CountVectorizer
vectorizer = CountVectorizer(inputCol="words", outputCol="bag_of_words")
vectorizer_transformer = vectorizer.fit(td)

然后它应该可以工作，这样你就可以打电话transform充当

vectorizer_transformer.transform(td).show(truncate=False)

现在，如果您想坚持转换为旧样式RDD风格那么你必须修改某些代码行。以下是您修改后的完整代码（工作）

from pyspark import Row
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
from pyspark import SparkConf
sc = SparkContext
spark = SparkSession.builder.appName("ML").getOrCreate()

train_data = spark.read.text("20ng-train-all-terms.txt")
td= train_data.rdd #transformer df to rdd
tr_data= td.map(lambda line: line[0].split(" ")).map(lambda words: Row(label=words[0], words=words[1:])).toDF()
from pyspark.ml.feature import CountVectorizer

vectorizer = CountVectorizer(inputCol="words", outputCol="bag_of_words")
vectorizer_transformer = vectorizer.fit(tr_data)

但我建议你坚持dataframe way.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

apachespark

machinelearning

PySpark

apachesparksql

“RDD”对象没有属性“_jdf”pyspark RDD 的相关文章

ssl.SSLEOFError: EOF 发生违反协议 (_ssl.c:1129)

我正在尝试使用 GOOGLE Drive Api 从电脑上传多个文件到云端硬盘 from pydrive auth import GoogleAuth from pydrive drive import GoogleDrive import
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
带有空格的 Firestore 文档字段名称在 Python 中与 .where() 一起使用时会返回错误

使用 Firebase 的 Cloud Firestore 在 Python 3 7 中编写一个非常简单的程序在程序中我使用 where 下拉集合的一部分然后使用 for 循环对其进行迭代当任何带有空格的字段名称被传递到 where
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
matplotlib 图形的乳胶渲染文本中的中心标题

我想将 Matplotlib 图形的标题居中其中在渲染 LaTeX 样式时包含换行符返回在标题中间插入 Latex 的简单返回代码可以工作但不会使其居中从而导致换行符从第一行尴尬地移动 from matplotlib import
如何使用 PyCharm 运行 Pylint

我想将 Pylint 配置为我正在处理的 Python 项目的整个项目目录中的外部工具我尝试将存储库用作模块 init py没有的话这两种方式都不起作用我在设置 Pylint 与 PyCharm 一起运行时遇到困难我知道我应该将它作
为什么LeNet5使用32×32图像作为输入？

我知道mnist数据集中的手写数字图像是28 28 但是为什么LeNet5中的输入是32 32 您的问题已在原纸 http yann lecun com exdb publis pdf lecun 98 pdf 卷积步骤始终采用比前一层的特
如何使用 BeautifulSoup 从表中选择特定行？

So I have a question related to a previous question but I realized I needed to go one level more to get an 11 digit NDC
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr

随机推荐

使用 pathlib 模块关闭文件的推荐方法？

从历史上看我总是使用以下内容来读取文件python with open file r as f for line in f do thing to line 这仍然是推荐的方法吗使用以下内容是否有任何缺点 from pathlib im
在C语言中，我可以通过堆栈指针访问另一个函数中主函数的局部变量吗？

我需要访问在 main 函数中定义的变量 a 的值而不将其作为参数传递 main int a 10 func printf d n a void func i need access of variable a here 我怎样才能做到这
jQuery 选择列表选项通过另一个元素 onchange 事件更改后触发事件

我有一个选择列表 select2 每次更改另一个选择列表 select1 时其选项都会更改 select2 的选项始终取决于 select1 的值并且每次 select1 更改时都会更改是否有一个函数可以绑定到 select2 元素
如何在局域网上部署PHP应用程序？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是一名网页设计师和 PHP 开发人员我用 PHP 创建了一些网站并将它们部署到来自不同供应商如 GoDaddy Yahoo M
java.lang.IllegalArgumentException - 对话框.dismiss

我在发布的应用程序中收到此错误只有客户端收到此错误我已经多次尝试复制同样的错误但没有成功我也已经尝试在所有有对话框的位置使用下面的代码但也没有解决 if dialog isShowing dialog dismiss 错误报告 j
箭头函数后面带()的意思是什么？ [复制]

这个问题在这里已经有答案了 const actionsMap GET USER state action gt post action msg 我有这个我偶然发现的代码我一直在使用格式的箭头函数这个包装器是什么意思对于箭头函数您
Android 浏览器忽略响应式网页设计

我刚刚开始将我的网站转换为响应式网页设计我安装了 Firefox 的 Web Developer 插件 http chrispederick com work web developer http chrispederick com w
如何在django中使用子查询？

我想获取每个客户最新购买的列表按日期排序以下查询执行我想要的操作除了日期之外 Purchase objects all distinct customer order by customer date 它会生成如下查询 SELECT
LightInject 入门

我喜欢LightInject 的基准测试 http www palmmedia de blog 2011 8 30 ioc container benchmark performance comparison 他们疯了太棒了你应该写一本
按 id 或 sku 在后端订单列表中扩展产品项目的搜索

我尝试使用以下代码在 Woocommerce 订单管理页面中按订单商品 SKU 或 ID 搜索 https stackoverflow com questions 28063920 search by order item sku or i
用 c++11 编译时 Mingw g++ 无法识别 off_t

我写了尽可能小的测试问题 include
Spring Boot 2.1.1：UnsatisfiedLinkError：org.apache.tomcat.jni.SSL.renegotiatePending

从 Spring Boot 2 1 0 RELEASE 更新到 2 1 1 RELEASE 后所有 HTTPS 请求都会失败并出现以下错误 2018 12 03 14 23 46 089 PID 21726 LEVEL ERROR TH
ListView行id和位置索引混淆

我刚刚开始深入研究一些基本的 Android 开发并一直在尝试ListView并将其与SimpleCursorAdapter 我浏览了很多在线代码示例但我还有一本书可以用作参考专业Android 2应用程序开发在书中他们设计了一个
驱动器已满或空间不足时出现 IOException

我正在寻找特定于平台特定于 JRE 的 IOException 消息列表指示磁盘已满或空间不足到目前为止我有视窗 There is not enough space on the disk Solaris Linux Not eno
SQL 查询 DIFFDATE 返回无效标识符

我试图使用 diffdate 显示两列之间的天数差异使用以下代码 SELECT ORDERS ORDERID ORDERS CUSTOMERID ORDERS ORDERDATE ORDERS SHIPDATE DATEDIFF DAY
有没有办法为 Gradle 添加依赖项的类路径/目录？

我有一个新项目它取决于遗留项目中的类不是 jar 文件而是实际的类如何使这些目录成为 gradle 编译的依赖项 dependencies compile files relative path to classes dir 欲了解
Firefox：如何使用附加 SDK (Jetpack) 添加/修改工具栏

因此我已经多次查看了 Add on SDK 的文档但没有在哪里可以看到如何创建工具栏或修改现有工具栏他们有一个关于创建附加栏图标的教程但这不是我想要的附加 SDK 支持吗如果是的话有人可以将我链接到示例教程吗这对我有用 v
如何在 Travis 上安装 Google Cloud SDK？

我尝试使用以下命令在 Travis 上安装 Google Cloud SDK travis yml sudo required language go curl https sdk cloud google com bash 我的尝试受到了
从 std::set 中提取仅移动类型

我有一个std set
“RDD”对象没有属性“_jdf”pyspark RDD

我是 pyspark 的新手我想对文本文件执行一些机器学习 from pyspark import Row from pyspark context import SparkContext from pyspark sql session

“RDD”对象没有属性“_jdf”pyspark RDD

“RDD”对象没有属性“_jdf”pyspark RDD 的相关文章

随机推荐

热门标签