如何使用 scikit 的预处理/标准化以及交叉验证？

2024-01-04

作为没有任何预处理的交叉验证的示例，我可以这样做：

    tuned_params = [{"penalty" : ["l2", "l1"]}]
    from sklearn.linear_model import SGDClassifier
    SGD = SGDClassifier()
    from sklearn.grid_search import GridSearchCV
    clf = GridSearchCV(myClassifier, params, verbose=5)
    clf.fit(x_train, y_train)

我想使用类似的方法预处理我的数据

from sklearn import preprocessing
x_scaled = preprocessing.scale(x_train)

但在设置交叉验证之前这样做并不是一个好主意，因为这样训练集和测试集将一起标准化。如何设置交叉验证以在每次运行时分别预处理相应的训练和测试集？

根据文档，如果您雇用Pipeline，这可以为您完成。来自docs http://scikit-learn.org/stable/modules/cross_validation.html，就在第 3.1.1.1 节之上，强调我的：

正如根据训练中保留的数据测试预测器很重要一样，预处理（例如标准化、特征选择等）和类似的数据转换同样应该从训练集中学习并应用于保留的数据以进行预测[...] Pipeline 使得编写估计器变得更容易，在交叉验证下提供这种行为[.]

有关可用管道的更多相关信息here http://scikit-learn.org/stable/modules/pipeline.html#combining-estimators.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

如何使用 scikit 的预处理/标准化以及交叉验证？的相关文章

使用 glGetFloatv 检索 pyglet 中的模型视图矩阵

我正在使用 pyglet 在 python 中进行 3D 可视化并且需要检索模型视图和投影矩阵来进行一些选择我使用以下方式定义我的窗口 from pyglet gl import from pyglet window import wi
在 Python 中同时插入行

我正在尝试对我的代码进行矢量化但遇到了障碍我有 nxd x 值数组 x1 xn 其中每一行 x1 有很多点 x11 x1d nxd y 值数组 y1 y2 y3 其中每一行 y1 有很多点 y11 y1d x 值的 nx1 数组 x 1
当语料库有100亿个独特的DNA序列时，如何使用BK树实现快速模糊搜索引擎？

我正在尝试使用BK tree https news ycombinator com item id 14022424python 中的数据结构用于存储约 100 亿个条目的语料库 1e10 以实现快速模糊搜索引擎一旦我添加超过 1000
如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
如何将 UPX 与 pyinstaller 一起使用？

如何将 UPX 与 pyinstaller 一起使用我正在关注文档我已经下载了UPX 我的文件如下所示 import csv import selenium import pandas print Hello 然后我运行 pyinsta
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
自定义 Keras 损失函数中的 conv2d

我正在尝试基于两个图像的拉普拉斯算子在带有 TF 后端的 Keras 中实现自定义损失函数 def blur loss y true y pred weighting of blur loss alpha 1 mae losses mean
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
Tkinter 如何根据此组合框自动更新第二个组合框

我在 Tkinter Python 中遇到了组合框更新的问题我有两个组合框组合框A with values A B C and 组合框B 我想要的是当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
pandas-更改重采样时间序列的开始和结束日期

我有一个时间序列我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日它希望将数据从6月1日延长到6月30日计数列仅在较长时间内具有 0 值而我的实际值是从 6 日到 28 日 Out 123 count Timesta
如何使用资源模块来衡量函数的运行时间？

我想使用Python代码测量函数的CPU运行时间和挂钟运行时间此处建议资源模块如何以 Python 代码不是从终端的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
Pandas：按日历周分组，然后绘制真实日期时间的分组条形图

EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案结果将如下所示您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
将同一 numpy 数组的两个视图组合成单个视图而不复制数组？

我有一个大型 2d numpy 数组我想删除它的子集并处理函数剩下的内容我需要对许多子集执行此操作因此理想情况下我不想每次都创建数组的副本该函数不会更改数组中的任何值 mat np load filename mat 1 mat i
IOError：在 Linux 上的 ReportLab 中使用 matplotlib PNG 时“解码器 zip 不可用”，适用于 Windows

我正在使用 ReportLab 打印 matplotlib 生成的图表我可以在我的 Windows 开发机器上毫无问题地执行此操作然而当我部署到 Ubuntu 服务器时渲染失败并出现所述错误我假设我缺少一个 Python 模块但

随机推荐

teamcity错误MSB4057：项目中不存在目标“pack”

无法使用 4 7 框架为 Dot Net Core 项目创建包我正在 teamcity 中使用 msbuild t pack p COnfiguration Release 命令来创建包
从 JSON 类别中获取数据

我正在编写一个应用程序我在其中从 JSON 中获取数据我能够获取类别列表但每当我点击任何类别时未获取产品列表始终在该特定类别下获取空白活动 JSON categoryId 1 categoryTitle SmartPhones Smar
User.IsInRole 返回 false

我正在使用 Identity 2 在 mvc 5 网站中进行身份验证在我看来我想检查用户的角色 if User IsInRole Customers do something 但这总是返回 false 我已经设置了
带有 Facebook 评论的自定义滚动条

The goal 我想在窗口加载时运行滚动条脸书评论容器问题滚动条工作得很好但我必须resize屏幕强制其调用场景 I made jsFiddle 上的示例 http jsfiddle net vDUyU 看一下说明当前的情况
用 C 生成所有元组 - 比嵌套循环更好的方法？

我有一个数组double x 长度为 11 的函数f double x 我想找到函数的最小值f 通过离散化所以对于给定的值val1 val2 valn我需要一个循环遍历 val 1 val n 11 中 x 的所有元组我可以轻松地使用
C++ 概念占位符类型推导

在范围规范中N4622 http www open std org jtc1 sc22 wg21 docs papers 2016 n4622 pdf the Same概念被定义为两种类型T and U 但有时在内部使用requires只有
无法从 START_ARRAY 令牌中反序列化 java.util.HashMap 的实例

我在使用 jackson core 2 7 3 jar 解析 JSON 时遇到问题你可以从这里得到它们http repo1 maven org maven2 com fasterxml jackson core http repo1 ma
在 C++11 中实现元函数 zip

我实际上想看看是否可以获得一个最小的库该库支持我从 boost fusion 使用的极少数操作这是我到目前为止所拥有的 template lt typename Types gt struct typelist template lt
是什么导致Spring在使用AnnotationConfigApplicationContext时无法加载配置类？

我最近遇到了这个问题在搜索 stackoverflow 网站后找不到可行的解决方案我收到的错误是 Spring 在加载配置类时遇到问题我使用注释和 Spring 类来配置而不是 XML 文件以练习使用注释而不是 XML 文件配置
是否可以强制使用 DataType 作为 DataType.Currency 的 MVC3 字段的货币

我正在编写一个 MVC3 应用程序它从数据库中读取一堆货币数据我遇到的问题是这些金额都是不同的货币如果我像这样设置字段的类型 DataType DataType Currency public Amount get set 我得到小数
添加使用向上和向下箭头键选择表格行的功能

我需要专家的帮助来解决我的以下问题因为它超出并远远超出了我对 JavaScript 编程的知识水平鉴于下面现有的 JavaScript 编码我如何搭载并添加到现有编码中以便为用户添加功能以便在滚动时使用向上和向下箭头键滚动表格顺
我无法使用 libusb for Ruby 模拟嗅探 urb 中断

嗅探 URB INTERRUPtions 我嗅探了一些应用程序 SoundLab 和设备带 USB 的声波计之间的通信我找到了一个负责返回当前状态的数据包 USB URB Source host Destination 1 1 2 U
包主要版本更改是否意味着子包主要版本更改？

假设我有一个核心 CMS 已从v4 8 7 to v5 0 0 我还有一个事件模块包有自己的版本号1 2 4它将这个核心 CMS 包导入到它的composer json file company name cms 4 3 我将这个包上的c
Tesseract 混淆两个数字

我正在编写一个应用程序来扫描图像中的数字这些数字使用 OCR B 字体并且还可能包含 and gt 人物这是我的源图像即使将字符集限制为上述字符使用 Tesseract 的扫描效果也不是很好由于我没有找到 Tesseract 的
Visual Studio 不会调试到引用的 DLL（来自同一解决方案）

我有一个 Visual studio 2008 解决方案有 2 个项目一个 DLL A 一个 Web 应用程序 B B 有一个对 A 的项目引用并且 A dll 和 A pdb 正在被复制到 B 的 bin 目录中一切都设置为在调试
文件夹外的文件夹路径

我的主文件夹中有一个包含所有 css 的文件夹名为 main 在 main 中我有另一个名为 math 的文件夹我想在 math 文件夹中使用我的CSS 但是当我输入在 math 文件夹的index html 上它可以工作我认为这
无法在 Codeigniter 中加载请求的类 Session

我的图书馆在autoload php is autoload libraries array database pagination session cart form validation 我收到此错误 An Error Was Enco
Kotlin 注解 IntDef

我有这个代码示例 class MeasureTextView TextView constructor context Context super context constructor context Context attrs Attr
如何向框架添加鼠标监听器

我想向 mt JFrame 框架添加一个 mouselistener 但是当我执行 frame addMouseListener this 时我收到一个错误指出我无法在静态方法中使用它我正在制作一个应用程序检测鼠标的单击然后以 i
如何使用 scikit 的预处理/标准化以及交叉验证？

作为没有任何预处理的交叉验证的示例我可以这样做 tuned params penalty l2 l1 from sklearn linear model import SGDClassifier SGD SGDClassifier fro

如何使用 scikit 的预处理/标准化以及交叉验证？

如何使用 scikit 的预处理/标准化以及交叉验证？ 的相关文章

随机推荐

热门标签

如何使用 scikit 的预处理/标准化以及交叉验证？的相关文章