用于相交列列表的一致 ColumnTransformer

2024-01-07

我想用sklearn.compose.ColumnTransformer对于相交的列列表，一致（不是并行的，因此，第二个变换器应该仅在第一个变换器之后执行）：

log_transformer = p.FunctionTransformer(lambda x: np.log(x))
df = pd.DataFrame({'a': [1,2, np.NaN, 4], 'b': [1,np.NaN, 3, 4], 'c': [1 ,2, 3, 4]})
compose.ColumnTransformer(n_jobs=1,
                         transformers=[
                             ('num', impute.SimpleImputer() , ['a', 'b']),
                             ('log', log_transformer, ['b', 'c']),
                             ('scale', p.StandardScaler(), ['a', 'b', 'c'])
                         ]).fit_transform(df)

所以，我想用SimpleImputer for 'a', 'b', then log for 'b', 'c'，进而StandardScaler for 'a', 'b', 'c'.

But:

我得到数组(4, 7) shape.
我仍然得到Nan in a and b列。

那么，我该如何使用ColumnTransformer对于不同的列，采用以下方式Pipeline?

UPD:

pipe_1 = pipeline.Pipeline(steps=[
    ('imp', impute.SimpleImputer(strategy='constant', fill_value=42)),
])

pipe_2 = pipeline.Pipeline(steps=[
    ('imp', impute.SimpleImputer(strategy='constant', fill_value=24)),
])

pipe_3 = pipeline.Pipeline(steps=[
    ('scl', p.StandardScaler()),
])

# in the real situation I don't know exactly what cols these arrays contain, so they are not static: 
cols_1 = ['a']
cols_2 = ['b']
cols_3 = ['a', 'b', 'c']

proc = compose.ColumnTransformer(remainder='passthrough', transformers=[
    ('1', pipe_1, cols_1),
    ('2', pipe_2, cols_2),
    ('3', pipe_3, cols_3),
])
proc.fit_transform(df).T

Output:

array([[ 1.        ,  2.        , 42.        ,  4.        ],
       [ 1.        , 24.        ,  3.        ,  4.        ],
       [-1.06904497, -0.26726124,         nan,  1.33630621],
       [-1.33630621,         nan,  0.26726124,  1.06904497],
       [-1.34164079, -0.4472136 ,  0.4472136 ,  1.34164079]])

我明白为什么我有重复的列，nans而不是缩放值，但是当列不是静态时，如何以正确的方式解决这个问题？

UPD2:

当列更改顺序时可能会出现问题。所以，我想用FunctionTransformer对于列选择：

def select_col(X, cols=None):
    return X[cols]

ct1 = compose.make_column_transformer(
    (p.OneHotEncoder(), p.FunctionTransformer(select_col, kw_args=dict(cols=['a', 'b']))),
    remainder='passthrough'
)

ct1.fit(df)

但得到这个输出：

ValueError：没有有效的列规范。仅允许标量、所有整数或所有字符串的列表或切片、或布尔掩码

我该如何修复它？

预期用途ColumnTransformer不同的变压器是并行应用的，而不是顺序应用的。为了实现您想要的结果，我想到了三种方法：

第一种方法：

pipe_a = Pipeline(steps=[('imp', SimpleImputer()),
                         ('scale', StandardScaler())])
pipe_b = Pipeline(steps=[('imp', SimpleImputer()),
                         ('log', log_transformer),
                         ('scale', StandardScaler())])
pipe_c = Pipeline(steps=[('log', log_transformer),
                         ('scale', StandardScaler())])
proc = ColumnTransformer(transformers=[
    ('a', pipe_a, ['a']),
    ('b', pipe_b, ['b']),
    ('c', pipe_c, ['c'])]
)

第二种方法：
This 要求sklearn>1.2以及引入的 pandas-out 功能。没有它，ColumnTransformers 会重新排列列并忘记名称，这样后面的列就会失败或应用到错误的列。对于早期版本，您可以根据您的特定用例进行调整。

imp_tfm = ColumnTransformer(
    transformers=[('num', impute.SimpleImputer() , ['a', 'b'])],
    remainder='passthrough'
    )
log_tfm = ColumnTransformer(
    transformers=[('log', log_transformer, ['b', 'c'])],
    remainder='passthrough'
    )
scl_tfm = ColumnTransformer(
    transformers=[('scale', StandardScaler(), ['a', 'b', 'c'])
    )
proc = Pipeline(steps=[
    ('imp', imp_tfm),
    ('log', log_tfm),
    ('scale', scl_tfm)]
).set_output("pandas")

Third，可能有一种方法可以使用Pipeline切片功能以拥有一个“主”管道，您可以为每个功能削减该管道...这主要像第一种方法一样工作，在较大管道的情况下可能会节省一些编码，但似乎有点老套。例如，在这里您可以：

pipe_a = clone(pipe_b)[1:]
pipe_c = clone(pipe_b)
pipe_c.steps[1] = ('nolog', 'passthrough')

（没有克隆或其他深度复制pipe_b，最后一行将改变两者pipe_c and pipe_b。切片机制返回一个副本，所以pipe_a严格来说并不需要克隆，但我将其保留下来是为了感觉更安全。不幸的是你不能提供不连续的切片，所以pipe_c = pipe_b[0,2]不起作用，但你can像我上面所做的那样设置各个切片"passthrough"禁用它们。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于相交列列表的一致 ColumnTransformer 的相关文章

scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

从 Windows 命令行获取文件夹大小

在 Windows 中是否可以在不使用任何第三方工具的情况下从命令行获取文件夹的大小我想要与右键单击 Windows 资源管理器属性中的文件夹时获得的结果相同的结果有一个内置 Windows 工具为了那个原因 dir s Folde
如何避免锯齿并提高性能？

In this 堆栈溢出答案 https stackoverflow com a 9709724 2345484事实证明 C 中的别名会降低代码速度 C 中的别名不仅适用于指针还适用于引用更普遍地适用于标准指定的这些类型 https s
ajax POST 后无法访问 JQuery $(this)？

假设我有一堆共享点击事件的链接 a href class do stuff Click me a a href class do stuff Click me a a href class do stuff Click me a a hre
使用 Utf8Json 库序列化时排除空字段？

使用以下方法将 POCO 序列化为 JSON 字符串时有什么方法可以忽略空字段Utf8Json图书馆我有一个ToString我在外部使用的下面的类中的方法所以我想看看是否有任何方法可以在进行序列化时排除空字段基本上我不希望序列化后
禁用 gcc 对不兼容选项的警告

我很好奇是否有一个选项可以禁用 gcc 关于参数对正在编译的语言无效的警告 Ex cc1 warning command line option Wno deprecated is valid for C Java ObjC but not
如何在显示 jQuery ui 选项卡时插入 JavaScript？

我想在我的页面上运行 JavaScript 函数但仅限于显示选项卡时其实有两个问题我没有使用 ajax 选项卡那么如果我只想在显示选项卡后运行代码我会将 JavaScript 放入加载或显示回调中吗根据上面的答案我的代
IE 和 Firefox 中的文本大小不同

为什么 IE 中的文本比 Firefox 中的文本稍大宽示例顶部是 IE 渲染文本的方式底部是 FF Image http www dreamscape hu text jpg 在 CSS 中声明为 Arial 16px 的文本我
如何将 Xamarin Forms Shell 集成到 MvvmCross 设置中

我打算将 Xamarin Forms 与 MvvmCross 一起使用根据他们的tutorial https www mvvmcross com documentation tutorials tipcalc a xamarin form
如何接入Kubernetes部署

我已经创建了 Docker 映像并部署在具有最少数量机器的 k8s 集群中设置了一台主机和一台工作机两台机器都已启动并运行并使用相同的 VLAN 网络相互通信请查找以下 Pod 和部署服务以及所描述的状态 root jenkins
如何配置 protobuf-net 的 RuntimeModel.Default 以支持序列化/反序列化 SessionSecurityToken？

BinaryFormatter 能够简单地处理序列化 private byte TokenToBytes SessionSecurityToken token if token null return null using var memo
XML 格式中的换行符？

在 XML 中编辑字符串时我需要添加换行符我想问一下为 android 编程时正确的形式是什么因为 br 有效但 ECLIPSE 将该区域标记为有问题如果我查看建议 Eclipse 会告诉我我应该添加一个结束标签如果我添加换
Blazor 作用域 CSS 未在 Azure Pipelines 上构建

我正在开发一个使用作用域 CSS 的 Blazor 应用程序但是当我尝试使用 Azure Pipelines 构建它时不会生成作用域 CSS 文件我在一台可以通过 RDP 访问的本地计算机上构建我看到wwwroot assembly
从 mach_timebase_info() 创建结构体

在 C 中创建时基信息结构很容易但在 Swift 中以下内容在 Playground 中不起作用 let timebaseInfo mach timebase info data t mach timebase info timebas
使用 pandas 和 scipy 绘制树状图

我希望使用相关性生成树状图pandas and scipy 我使用数据集作为DataFrame 由返回组成其大小为n x m where n是日期的数量 m公司数量然后我只需运行脚本 import pandas as pd impor
如何让 ediff + hg 在 emacs 23.2 for mac 中工作？

我使用 emacs 二进制文件http emacsformacosx com http emacsformacosx com 当我在 Mercurial 源目录中编辑文件并运行 ediff revision 时我得到 File the f
错误：预期未定义为 GraphQL 模式

我收到一条错误内容为错误预期未定义为 GraphQL 架构请检查一下这是什么问题当我移动到 localhost 3000 graphiql 时它显示上述错误也许我犯了一些错误请任何人检查并帮助我如果可能的话我的服务器 j
人脸识别-Python

我正在尝试通过以下方式进行人脸识别主成分分析 PCA 使用Python 现在我能够获得训练图像之间的最小欧几里德距离images和输入图像input image 这是我的代码 import os from PIL import Image
获取正在激活的选项卡（div）的ID

我正在使用 jquery 1 9 和 jquery UI 1 10 我希望能够在单击选项卡时获取选项卡 ID 例如如果我单击名为 Second 的选项卡我想获得 tabs 2 响应到目前为止我已经完成了以下代码
我是否应该同步监听器通知？

我总是很犹豫是否要把我的锁公开公开我总是尝试将锁限制在我的实现范围内我相信不这样做就会导致僵局我有以下课程 class SomeClass protected ArrayList
用于相交列列表的一致 ColumnTransformer

我想用sklearn compose ColumnTransformer对于相交的列列表一致不是并行的因此第二个变换器应该仅在第一个变换器之后执行 log transformer p FunctionTransformer lamb

用于相交列列表的一致 ColumnTransformer

用于相交列列表的一致 ColumnTransformer 的相关文章

随机推荐

热门标签