避免在 scikit learn StandardScaler 中缩放二进制列

2023-11-27

我正在 sci-kit learn 中构建线性回归模型，并将输入缩放为 sci-kit learn Pipeline 中的预处理步骤。有什么方法可以避免缩放二进制列吗？发生的情况是这些列与其他列一起缩放，导致值以 0 为中心，而不是 0 或 1，所以我得到像 [-0.6, 0.3] 这样的值，这导致输入值为 0影响我的线性模型中的预测。

基本代码来说明：

>>> import numpy as np
>>> from sklearn.pipeline import Pipeline
>>> from sklearn.preprocessing import StandardScaler
>>> from sklearn.linear_model import Ridge
>>> X = np.hstack( (np.random.random((1000, 2)),
                np.random.randint(2, size=(1000, 2))) )
>>> X
array([[ 0.30314072,  0.22981496,  1.        ,  1.        ],
       [ 0.08373292,  0.66170678,  1.        ,  0.        ],
       [ 0.76279599,  0.36658793,  1.        ,  0.        ],
       ...,
       [ 0.81517519,  0.40227095,  0.        ,  0.        ],
       [ 0.21244587,  0.34141014,  0.        ,  0.        ],
       [ 0.2328417 ,  0.14119217,  0.        ,  0.        ]])
>>> scaler = StandardScaler()
>>> scaler.fit_transform(X)
array([[-0.67768374, -0.95108883,  1.00803226,  1.03667198],
       [-1.43378124,  0.53576375,  1.00803226, -0.96462528],
       [ 0.90632643, -0.48022732,  1.00803226, -0.96462528],
       ...,
       [ 1.08682952, -0.35738315, -0.99203175, -0.96462528],
       [-0.99022572, -0.56690563, -0.99203175, -0.96462528],
       [-0.91994001, -1.25618613, -0.99203175, -0.96462528]])

我希望最后一行的输出是：

>>> scaler.fit_transform(X, dont_scale_binary_or_something=True)
array([[-0.67768374, -0.95108883,  1.        ,  1.        ],
       [-1.43378124,  0.53576375,  1.        ,  0.        ],
       [ 0.90632643, -0.48022732,  1.        ,  0.        ],
       ...,
       [ 1.08682952, -0.35738315,  0.        ,  0.        ],
       [-0.99022572, -0.56690563,  0.        ,  0.        ],
       [-0.91994001, -1.25618613,  0.        ,  0.        ]])

我有什么办法可以实现这个目标吗？我想我可以只选择非二进制的列，只转换它们，然后将转换后的值替换回数组中，但我希望它能够与 sci-kit learn Pipeline 工作流程很好地配合，所以我可以做类似的事情：

clf = Pipeline([('scaler', StandardScaler()), ('ridge', Ridge())])
clf.set_params(scaler__dont_scale_binary_features=True, ridge__alpha=0.04).fit(X, y)

您应该创建一个自定义缩放器，在缩放时忽略最后两列。

from sklearn.base import TransformerMixin
import numpy as np

class CustomScaler(TransformerMixin): 
    def __init__(self):
        self.scaler = StandardScaler()

    def fit(self, X, y):
        self.scaler.fit(X[:, :-2], y)
        return self

    def transform(self, X):
        X_head = self.scaler.transform(X[:, :-2])
        return np.concatenate(X_head, X[:, -2:], axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

避免在 scikit learn StandardScaler 中缩放二进制列的相关文章

xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

Javascript 在 Child 中调用 Parent 构造函数（原型继承） - 它是如何工作的？

我知道它有效但我不知道为什么以及如何有哪些机制 Parent constructor function Parent name this name name The name property is empty Child constr
对 ASP.Net MVC 授权的更多控制；保留 AJAX 请求 AJAX

我在授权背后有一些操作方法例如 AcceptVerbs HttpVerbs Post Authorize public ActionResult Create int siteId Comment comment 我遇到的问题是我通过 A
删除 Json 中的空格

如何删除以下代码块中的空格并将其存储在 javascript 变量中这是原始格式 info First Json description Official Website timestamp 1337936081 rates USD 84
neon vuzp 的 sse/avx 等效项

Intel 的向量扩展 SSE AVX 等为每个元素大小提供两个解包操作例如SSE 内在函数是 mm unpacklo and mm unpackhi 对于向量中的 4 个元素它执行以下操作 inputs A0 A1 A2 A3 B0
R flexdashboard 删除标题栏

我正在使用一个项目rMarkdown和flexdashboard包裹来自rStudio 一切都进展顺利但我想删除您在图像顶部看到的蓝色标题栏我们将此 html 页面放入一个窗口中使其成为第二个标题栏看起来很糟糕里面有一个函数吗fl
使用 TimeSeriesGenerator 为 Keras LSTM 定制数据生成器

所以我尝试使用 Keras 适合生成器使用自定义数据生成器将数据输入 LSTM 网络什么有效为了说明这个问题我创建了一个玩具示例尝试以简单的升序序列预测下一个数字并使用 Keras时间序列生成器创建一个序列实例 WINDOW LE
.NET 是否有相当于 Delphi 的 ActionList 的功能？

我们目前使用Delphi 5 和Delphi 2005 进行开发并研究通过Delphi Prism 走 NET 路线是否有与 Delphi 的 ActionList 等效的 NET 对于那些不熟悉 ActionList 的人来说它是一
获取 Windows 应用商店应用程序的 .mp3 文件中的 Albumart

如何获取 mp3 文件中的 AlbumArt 图像我正在使用 C 开发 Windows 应用商店应用程序 MusicProperties 类给了我专辑名称艺术家名称与但它不能给我专辑艺术查看 MSDN 示例以显示任何文件的缩略图它还
EnvironmentVariables默认值长度大于4096

我正在尝试将 Rails 应用程序部署到 Amazon Elastic Beanstalk eb 环境我收到了这个错误 Uploading 100 Done 2019 01 24 09 42 16 INFO Environment upd
为什么column = NULL不返回任何行？ [复制]

这个问题在这里已经有答案了可能的重复为什么 NULL NULL 在 SQL Server 中计算结果为 false 如果生成查询以将数据插入表 MyTab 中的列 Age Sex DOB ID INSERT INTO MyTab VAL
安装 pylinkgrammar 时缺少文件

http pypi python org pypi pylinkgrammar 我在尝试安装 pylinkgrammar 时遇到错误 Running setup py egg info for package pylinkgrammar I
如何使我的应用程序在 Galaxy Tab 上全屏显示

我一直在尝试一切我能想到的方法让我的应用程序在 Galaxy Tab 上全屏显示基本上它的工作原理类似于 Android SDK 附带的 Lunar Lander 示例应用程序您将如何使 Lunar Lander 应用程序在 Gal
使用 ReactJs 更改 Ant Design 变量

我在用antd我的应用程序中的库根据文档我可以通过更改变量来自定义主题例如 modifyVars primary color EB564F link color 0DD078 success color 0DD078 border r
如何在 POST 请求期间刷新会话？

我正在 Symfony2 中构建一个 Ajax 应用程序用户登录然后从那时起一切都由 POST 请求处理将会话生命周期定义为 5 分钟后config yml 我遇到了用户会话在 5 分钟后失效的问题即使他们正在发出 POST 请求
自动加载路径和嵌套服务类在 Ruby 中崩溃

我有多个问题需要加载需要我的类app servicesRails 5 项目中的文件夹我开始放弃这个问题首先要明确的是 services 是我在整个项目中使用的简单 PORO 类用于从控制器模型等中抽象出大部分业务逻辑这棵树看起来
是否有一个 jQuery 解决方案，在可用时使用 CORS，并在 MSIE 上使用 XDomainRequest，在浏览器上使用 niether 时使用 JSONP？

我愚蠢地相信所有现代浏览器都支持CORS 跨域资源共享当我的玩具 JavaScript 工具无法在 IE9 或 Opera 上运行时我发现前者只支持CORS通过XDomainRequest jQuery 似乎不支持歌剧不支持CORS还
C# 泛型与 C++ 模板 - 需要澄清约束

复制 C 和 Java 中的泛型与 C 中的模板有什么区别 Hi all 我是一位经验丰富的 C 程序员但对 C 还很陌生这些限制和泛型怎么了为什么它的工作方式与 C 中的约束不同 C 中的约束是隐式的并且是从您对模板类进行的实例化
将大型 CSV 文件加载到核心数据中的最快方法是什么

结论我想问题已经解决了看起来这个问题与方法无关但 XCode 没有在构建之间正确清理项目看起来在所有这些测试之后正在使用的 sqlite 文件仍然是第一个没有索引的文件当心 XCode 4 3 2 我除了 Clean 不清理的问题
以最快、最有效的方式调整 UIImage 大小

我想将 UIImage 的大小调整为一定的宽度和高度保持比例不变最简单的方法是 CGSize newSize CGSizeMake 726 521 UIGraphicsBeginImageContext newSize image dr
避免在 scikit learn StandardScaler 中缩放二进制列

我正在 sci kit learn 中构建线性回归模型并将输入缩放为 sci kit learn Pipeline 中的预处理步骤有什么方法可以避免缩放二进制列吗发生的情况是这些列与其他列一起缩放导致值以 0 为中心而不是 0 或

避免在 scikit learn StandardScaler 中缩放二进制列

避免在 scikit learn StandardScaler 中缩放二进制列 的相关文章

随机推荐

热门标签

避免在 scikit learn StandardScaler 中缩放二进制列的相关文章