从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签

2023-11-26

我在用Spark and pyspark我有一个pipeline设置了一堆StringIndexer对象，我用它来将字符串列编码为索引列：

indexers = [StringIndexer(inputCol=column, outputCol=column + '_index').setHandleInvalid('skip')
            for column in list(set(data_frame.columns) - ignore_columns)]
pipeline = Pipeline(stages=indexers)
new_data_frame = pipeline.fit(data_frame).transform(data_frame)

问题是，我需要获取每个的标签列表StringIndexer安装后的对象。对于单个列和单个StringIndexer没有管道，这是一件容易的事。我只能访问labels将索引器安装到上之后的属性DataFrame:

indexer = StringIndexer(inputCol="name", outputCol="name_index")
indexer_fitted = indexer.fit(data_frame)
labels = indexer_fitted.labels
new_data_frame = indexer_fitted.transform(data_frame)

然而，当我使用管道时，这似乎不可能，或者至少我不知道如何做到这一点。

所以我想我的问题可以归结为：有没有办法访问每个列的索引过程中使用的标签？

或者我是否必须在这个用例中放弃管道，例如循环遍历列表StringIndexer对象并手动执行？（我确信这是可能的。但是使用管道会更好）

示例数据和Pipeline:

from pyspark.ml.feature import StringIndexer, StringIndexerModel

df = spark.createDataFrame([("a", "foo"), ("b", "bar")], ("x1", "x2"))

pipeline = Pipeline(stages=[
    StringIndexer(inputCol=c, outputCol='{}_index'.format(c))
    for c in df.columns
])

model = pipeline.fit(df)

摘自stages:

# Accessing _java_obj shouldn't be necessary in Spark 2.3+
{x._java_obj.getOutputCol(): x.labels 
for x in model.stages if isinstance(x, StringIndexerModel)}

{'x1_index': ['a', 'b'], 'x2_index': ['foo', 'bar']}

来自转换后的元数据DataFrame:

indexed = model.transform(df)

{c.name: c.metadata["ml_attr"]["vals"]
for c in indexed.schema.fields if c.name.endswith("_index")}

{'x1_index': ['a', 'b'], 'x2_index': ['foo', 'bar']}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签的相关文章

嵌套函数中的变量作用域

有人可以解释为什么以下程序失败 def g f for in range 10 f def main x 10 def f print x x x 1 g f if name main main 带有消息 Traceback most re
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
MacOS Big Sur 中的 NPM 错误“找不到 Python 可执行文件”

我已经花了整整一周的时间寻找这个问题的答案但没有成功我查看了每个 StackOverflow 帖子 Google 的每一篇文章以及我能找到的每个相关的 Github 问题大多数相关错误似乎都比较旧所以我想知道我的问题是否由于我使用的
如何同时有效地运行多个 Pytorch 进程/模型？ Traceback：分页文件太小，无法完成此操作

背景我有一个非常小的网络我想用不同的随机种子进行测试该网络几乎只使用了我的 GPU 计算能力的 1 因此理论上我可以同时运行 50 个进程来同时尝试许多不同的种子 Problem 不幸的是我什至无法在多个进程中导入 pytorch 当
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
python 硒按名称查找元素

查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
如何在使用 Flask for Python 3 的同时使用 Bootstrap 4？

我检查过发现默认安装时 Flask Bootstrap 原生使用 Bootstrap 3 3 7 但实际上我想通过使用 Flask Bootstrap 包在我的项目中使用 Bootstrap 4 任何有关如何更新它或类似内容的帮助将不胜感
在添加数据之前使用 Python gdata 清除工作表中的行

我有一个 Google 电子表格我使用 python 脚本和 gdata 库填充值如果我多次运行脚本它会将新行附加到工作表中我希望脚本在填充之前首先清除行中的所有数据这样每次运行时我都会有一组新的数据脚本我尝试过使用 Updat
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
阻止 BeautifulSoup 将我的 XML 标签转换为小写

我正在使用 BeautifulStoneSoup 来解析 XML 文档并更改一些属性我注意到它会自动将所有 XML 标签转换为小写例如我的源文件有
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t

随机推荐

jasperreport 5.0.1需要添加哪些依赖？

I 升级jasper报告版本 from 4 5 0 至 5 1 0 当我安装插件时它会抛出错误例如缺少某些依赖项我想使用 Maven 配置 JasperReports 5 1 0 Execution default of goal o
安全 REST API，无需用户身份验证（无凭据）

我已经为如何在没有用户身份验证的情况下保护 REST API 的安全而苦苦挣扎了 2 天这是什么意思在我的 AngularJS 应用程序中我通过向我必须使用的现有服务 companydomain userinfo 发送 GET 请求来
Rails 路由 - 资源的自定义路由

我目前正在构建一个 Rails 应用程序我想坚持使用所有这些奇特的东西例如 REST 和资源但我想稍微自定义一下我的路线我希望我的 GET 路线更加详细我正在创建的应用程序是一个简单的博客所以而不是GET posts 1我更喜欢
在 CodeIgniter 中处理数据库错误的最佳实践

我有一个带有唯一键的表 date userid 在我的网络应用程序数据库中当我尝试插入现有记录时date and userid我收到以下错误 dupicate key in table 我在应用程序配置中打开了数据库调试器因为我需要使用
交错网格布局管理器动态列数

我如何使动态列数RecyclerView using StaggeredGridLayoutManager 我已经有工作了RecyclerView 这是我需要做的屏幕如果最大列是两个那就很简单了对于占据整个宽度的视图 setFullS
将字符串的第一个字母大写，而不接触其他字母

我想将字符串的第一个字母大写但保留其余字母我拥有的赛车我想要的是赛车然后只需将第一个字母大写str upper 并连接其余部分不变 string 0 upper string 1 Demo gt gt gt string rac
测试 SQL 连接字符串可用性的最有效方法

我有这段代码我试图让它测试 SQL 字符串连接但我不知道如何处理该部分connection Open true你能帮我解决这个问题吗非常感谢您的参与 private void button1 Click object sender E
使用 tcltk 在 R 脚本中添加弹出文本框

我有一个很长的脚本来进行一些数据分析它必须连接到多个数据库其中一个数据库更新密码的频率往往比我想要的要高因此我想添加一个弹出框供我输入当前密码我找到了这个示例但不了解足够的 tcltk 来查看当对话框关闭时 hwo 返回我的值我
Rust 中的英文字母作为字符向量

标题说明了一切我想将字母表生成为字符向量我确实考虑过简单地创建 97 122 的范围并将其转换为字符但我希望有一种更好看的方式例如 Python 的string ascii lower 生成的向量或字符串应包含字符 a z 对这类事
如何使用knitr从r脚本函数生成多个文件

我想从 r 脚本生成一些报告我想避免从 rmd 文件编译时所需的重复并且如果可能的话我想从 r 脚本本身生成报告该脚本具有一个函数该函数应该从一系列数据帧生成每个报告其中每个报告代表一个数据帧的处理我只是不明白如何单独生成每个
JAVA中实例化的具体含义是什么

我是一个JAVA新手这次遇到了这个词叫做在java中在方法内部创建的类称为局部内部类如果要调用局部内部类的方法则必须实例化这个类在方法中该词以粗体显示谁能帮我解决这个问题我知道这很尴尬我应该进行更多研究但我就是无法理解
禁止从 Python 函数打印 stdout / stderr

我有一个 Python 脚本它使用我的雇主提供的一些封闭式 Python 函数即我无法编辑这些函数当我调用这些函数时它们会将输出打印到我想禁止的 Linux 终端我尝试通过重定向 stdout stderr orig out sy
错误：找不到 npm 模块“时刻”

我有一个 Meteor 应用程序可以在本地主机上完美运行但是当我将其部署到远程时heroku服务器我收到以下错误我正在实施this 请问有什么办法解决这个问题吗 2016 09 09T13 26 02 533532 00 00 he
创建静态和共享 C++ 库

我想建立静态库和共享库在一个项目中我知道需要从使用 fpic 编译的对象创建共享库以获得位置无关代码而静态库不需要这个这一切都很好我可以创建共享库或静态库我不想编译我的源代码两次以获得不同的目标文件那么这通常是如何完成的我读如
Linux，第一次读取或第一次写入时会清零页面页错误吗？

我的问题是 Linux 特定的需要了解内核虚拟内存 mmap 页面错误我有一个带有大型静态数组的 C 程序它将进入 bss 部分内存初始化为零当程序启动时这块内存并没有物理分配只有虚拟内存虚拟内存的每一页都映射到特殊的零
iOS 将文件从主包复制到文档目录

我正在尝试将添加到名为 includes 的文件夹中的文件复制到文档目录上也称为 includes 的文件夹中我得到的值为零resContents Why void copyResources NSString sourcePath NS
流式传输实时音频

我想在 Android 设备上具有实时音频流的功能它通过设备的 MIC 捕获音频并将其发送到服务器我知道在录制后发送音频文件但如果是实时的我需要帮助也许可以通过不断向服务器发送字节数组来完成如果是的话如何或是否有其他方式请分
TypeError: Type str 不支持 buffer API # find 方法？

这是我的输入 div class content div class stream item header a class account group js account group js action profile js user p
Apple A4 上的 YUV 到 RGBA，我应该使用着色器还是 NEON？

我正在使用 OpenGL ES 和 ffmpeg 为 Apple TV 编写媒体播放器框架在 OpenGL ES 上渲染需要转换为 RGBA 使用 swscale 进行软转换速度慢得难以忍受所以根据网上的信息我想出了两个想法使用 ne
从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签

我在用Spark and pyspark我有一个pipeline设置了一堆StringIndexer对象我用它来将字符串列编码为索引列 indexers StringIndexer inputCol column outputCol co

从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签

从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签 的相关文章

随机推荐

热门标签

从 Spark (pyspark) 管道内的 StringIndexer 阶段获取标签的相关文章