sklearn - 如何在one-hot编码时合并丢失的数据

2024-04-17

我试图保留数据集中包含缺失数据的行。

当使用 sklearn 对一列（或多列）进行 one-hot 编码时。是否可以写一个规则if currentItem == null or if currentItem == 0然后将输出数组设置为全0？

e.g.

A A B -> [[1, 0], [1, 0], [0,1]]

B B A -> [[0, 1], [0, 1], [1,0]]

null B A -> [[0, 0], [0, 1], [1,0]]

独热编码：

import numpy as np
from sklearn.preprocessing import LabelEncoder


dataset = np.loadtxt("someFile.csv", delimiter=",")
B = dataset[:,1]

encoder = LabelEncoder()
encoder.fit(B)
encoded_B = encoder.transform(B)

Y = to_categorical(encoded_B)

编辑 - 示例数据集：其中 A-E 是输入，X & Y 是输出

A     B     C     D     E     X      Y
7     6     3     3     2     11     4
5     6     0     0     7     15     7
3     3     9     null  7     12     7
7     null  7     null  7     12     13
null  7     4     6     12    13     4
null  5     7     6     null  14     7
2     6     0     0     2     13     3
7     null  7     null  2     13     7

如果你有熊猫，这很简单。

s = pd.Series(['A', 'A', 0, 'B', 0, 'A', np.nan])
s

0      A
1      A
2      0
3      B
4      0
5      A
6    NaN
dtype: object

Use replace转换0为 NaN -

s = s.replace({0 : np.nan, '0' : np.nan})
s

0      A
1      A
2    NaN
3      B
4    NaN
5      A
6    NaN
dtype: object

现在，打电话pd.get_dummies，它忽略 NaN 值。

pd.get_dummies(s)

   A  B
0  1  0
1  1  0
2  0  0
3  0  1
4  0  0
5  1  0
6  0  0

数据框的解决方案是相同的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scikitlearn

sklearn - 如何在one-hot编码时合并丢失的数据的相关文章

以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

估计 64 位 Java 中最大安全 JVM 堆大小

在分析存在一些问题的 64 位 Java 应用程序的过程中我注意到分析器本身 YourKit 正在使用真正大量的内存我在 YourKit 启动脚本中得到的是 JAVA HEAP LIMIT Xmx3072m XX PermSize 25
使用 Symfony 的 ACL 时，使用 JOIN 查询还是 IN 数组查询更好？

这个问题建立在以下讨论的基础上如何使用 Symfony ACL 过滤我的 Doctrine 查询 https stackoverflow com questions 14858642 how to filter my doctrine q
ExpandableListAdapter 在什么条件下调用 getChildView()

在我的应用程序中 getChildView 在我里面可扩展列表适配器当适配器返回正确的子计数时当getChildrenCount 叫做我的问题是为了让 ExpandableListAdapter 膨胀其子项需要满足哪些条件当组和子
将背景图像放置在距右侧 1em 处？

据我所知不可能将 CSS 背景图像放置在距任何块的右边框 1em 处也不可能放置图像距底部 1em 处以下代码将背景图像放置在距左侧 1em 和距顶部 2em 的位置 div class foo style background ur
Visual Studio 2013 上下文菜单仅在 Web 应用程序项目中缓慢

我最近为了一个新项目从 VS 2010 升级到 VS 2013 我发现当右键单击 Web 应用程序项目中的文件夹而不是单个文件时加载上下文菜单大约需要 2 秒解决方案中的其他十多个非 Web 项目不存在此性能问题此外在那个缓慢的
ElementHost 内 WPF 控件的呈现问题

我有一个 WinForms 控件里面有一个TableLayoutPanel其中持有多个ElementHosts和每个ElementHost包含一个 WPF 控件一切正常除非控件的大小大于窗口和ScrollBar有没有当我向下滚动时
在 RoR 视图中获取 {{attribute}} {{message}}

登录 1 个错误禁止保存此 model 以下字段存在问题属性消息这是查看代码 h1 Login h1 br br br br br br
jQuery 使用什么正则表达式进行电子邮件验证？

Jquery 可以验证电子邮件地址 http docs jquery com Plugins Validation http docs jquery com Plugins Validation jQuery 使用什么正则表达式如果有进
直接通过 SSH 进入 docker 容器

我有一些 docker 容器现在我想通过 ssh 访问其中一个这是工作我通过 ssh 连接到 docker 容器但现在我遇到的问题是我不知道哪个用户可以访问这个容器我已经对主机上的两个用户网络和根进行了尝试但它们不起作用知道
如何使用 exec() 启动和停止 PHP 开发服务器

如何使用 exec 函数启动和停止 PHP 开发服务器我需要这样做才能自动化我的 BDD 测试这将停止我的脚本的执行 echo exec php S localhost 8000 所以我需要一种方法从 PHP 启动服务器并能够继续执行我
实体框架中的第二个 Self-To-Self 关系

假设我们有一个域类 public class Incident Key public virtual int IncidentId get set Display Name Parent Incident public virtual In
当我使用非共享运行时构建 Monodroid 项目时，获取编码失败

我正在尝试在我的 Monodroid 应用程序中使用 DotNetZip 库当我启用共享运行时构建选项时一切似乎都工作正常当我禁用共享运行时时该行 static System Text Encoding ibm437 System
Angular 5 反应形式 - 单选按钮组

我有 2 个单选按钮我正在使用反应式表单并且我已在组件中添加了表单控件我面临的问题是 name 属性必须与 formControlName 相同当我将名称属性设置为相同时我只能选择 1 个单选按钮永远无法取消选择并选择另一个只
Flutter 出现 The method 'findRenderObject' was called on null

最近有一个需求需要测量条子里的子元素到顶部的距离但是总是提示findrendereobject为空我什至无法尝试 widgetsbinding instance addpostframecallback控制台错误调度程序库捕获异常
在 RxJava 2 中展平列表

我已经使用 RxJava 1 一段时间了但我想看看 RxJava 2 在 RxJava 1 中我可以发出列表中的每个项目如下所示 List
Spring MVC JSP 无法定位 Javascript 或 CSS

这个问题似乎已经被问过几次了但是在审查了太多次之后我仍然看到这个问题我的 Spring MVC 项目中的 jsp 无法找到任何 css 或 js 文件即使它们在战争中并且给定的文件路径是正确的根据我的配置我看到两个错误第一个是
独立的 Visual Studio Code 工作区，针对不同的编程语言具有不同的扩展

是否可以使用扩展分别创建不同的 Visual Studio Code 工作区例如工作区 1带有 C 扩展和工作区 2带有Python扩展您可以安装扩展然后在特定工作区上启用禁用它们打开工作区在扩展面板中单击每个扩展的齿轮
在.VS 2015 NET 4.5中使用字符串插值和nameof

我正在使用类似的东西 hello person and nameof arg1 在我的代码中但在检查项目属性时我的目标是 NET 4 5 这个可以吗我以为这些东西是4 6引入的该项目在我的机器上构建并运行良好但我担心部署时会出现问
C# 中“decimal”类型的有趣行为

如果我们将填充声明为 const 小数则填充不起作用 mymoney 1 2 而你的钱 1 20 如何解释这种行为 class Program static void Main string args decimal balance 1
sklearn - 如何在one-hot编码时合并丢失的数据

我试图保留数据集中包含缺失数据的行当使用 sklearn 对一列或多列进行 one hot 编码时是否可以写一个规则if currentItem null or if currentItem 0然后将输出数组设置为全0 e g A

sklearn - 如何在one-hot编码时合并丢失的数据

sklearn - 如何在one-hot编码时合并丢失的数据 的相关文章

随机推荐

热门标签

sklearn - 如何在one-hot编码时合并丢失的数据的相关文章