对数据框中的列中的数据进行分类

2024-04-03

我的数据框中有一列数字，我想将这些数字分类为例如高、低、排除。我该如何做到这一点。我一无所知，我尝试查看剪切函数和类别数据类型。

一个简短的例子pd.cut.

让我们从一些数据框开始：

df = pd.DataFrame({'A': [0, 8, 2, 5, 9, 15, 1]})

比如说，我们想要将数字分配到以下类别：'low'如果一个数字在区间内[0, 2], 'mid' for (2, 8], 'high' for (8, 10]，并且我们排除大于 10（或小于 0）的数字。

因此，我们有 3 个带边的 bin：0、2、8、10。现在，我们可以使用cut如下：

pd.cut(df['A'], bins=[0, 2, 8, 10], include_lowest=True)
Out[33]: 
0     [0, 2]
1     (2, 8]
2     [0, 2]
3     (2, 8]
4    (8, 10]
5        NaN
6     [0, 2]
Name: A, dtype: category
Categories (3, object): [[0, 2] < (2, 8] < (8, 10]]

论据include_lowest=True包括第一个区间的左端。（如果您希望间隔在右侧打开，则使用right=False.)

间隔可能不是类别的最佳名称。那么，让我们使用名称：low/mid/high:

pd.cut(df['A'], bins=[0, 2, 8, 10], include_lowest=True, labels=['low', 'mid', 'high'])
Out[34]: 
0     low
1     mid
2     low
3     mid
4    high
5     NaN
6     low
Name: A, dtype: category
Categories (3, object): [low < mid < high]

被排除的数字 15 得到一个“类别”NaN。如果您喜欢更有意义的名称，可能最简单的解决方案（还有其他方法来处理 NaN）是添加另一个 bin 和类别名称，例如：

pd.cut(df['A'], bins=[0, 2, 8, 10, 1000], include_lowest=True, labels=['low', 'mid', 'high', 'excluded'])
Out[35]: 
0         low
1         mid
2         low
3         mid
4        high
5    excluded
6         low
Name: A, dtype: category
Categories (4, object): [low < mid < high < excluded]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

machinelearning

dataanalysis

对数据框中的列中的数据进行分类的相关文章

如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

如何在Verilog中将二维数组中的所有位设置为0？

我构建了一个 8 2bits 数组来表示 Verilog 中的一块内存 reg 1 0 m 0 7 该存储器有一个复位信号如果复位为1 则该存储器中的所有位都应重置为0 但是我不知道如何以简洁的方式设置m的所有位因为如果有数百个内存中有
如何防止 WCF 服务进入故障状态？

我有一个 WCF 服务不应进入故障状态如果出现异常则应将其记录下来并且服务应继续不间断该服务具有单向操作契约并且正在从 MSMQ 读取消息我的问题有两个该服务似乎正在被吞噬异常错误所以我无法调试它我如何获得服务暴露
从 Google 云端硬盘文件夹中删除旧文件

我创建了这个脚本来删除 3 个多小时前发布的文件而且即使最新文件超过 3 小时也不会被删除因此该文件夹永远不会为空我启用了谷歌的高级服务称为 DRIVE API V2 我激活了一个触发器每 5 分钟分析一次文件夹但文件通常不会
“此哈希方法尚未发现冲突”是什么意思？

我的意思是我不需要寻找实际的碰撞就知道它们的存在如果没有冲突那么如何获得固定长度的结果呢这就是为什么我不明白人们声称 md5 不安全是什么意思有人发现了碰撞或者类似的东西我唯一能想到的是碰撞搜索仅查找字典单词例如如果
如何知道已保存模型中的输出和输入张量名称

我知道如何加载已保存的 TensorFlow 模型但如何知道输入和输出张量名称我可以使用 tf import graph def 加载 protobuf 文件然后使用函数 get tensor by name 加载张量但我如何知道任
如何在 CLion 中运行 SFML，错误未定义引用？

我是 C 新手尝试学习游戏编程我选择 SFML 并在 Jetbrain 的 CLion 上运行并使用 Ubuntu 机器我按照这个教程SFML 和 Linux http sfml dev org tutorials 2 0 start
Primefaces 嵌套对话框/'appendToBody' - 支持 bean 操作未触发

我在两个嵌套表单中有一个支持 bean 方法会话范围该方法不会触发我用一个展示问题的通用示例提出了这个问题我希望了解如何为何使用表单对话框和appendToBody标签导致了问题为了澄清该行动contentsOfDialog
如何阻止 Eclipse 每次重新启动时累积 Tomcat 实例？

我在 Eclipse 2019 3 中运行 Tomcat 8 5 每次我通过单击绿色圆圈三角形按钮重新启动 Tomcat 实例时最终都会运行重复的实例我怎样才能阻止这种情况发生这是我已经尝试过的一些事情我尝试升级到tomcat 9
PostgreSQL 9.3：将一列拆分为多列

我想拆分一列colb在下面给出的示例中分为两列喜欢column1 and column2 我有一个包含两列的表 Example create table t3 cola varchar colb varchar 插入 insert int
在 Angular 中动态设置样式

我有以下标记 tr style background color none tr 正如它所说如果activity status字段待定然后将背景颜色设置为红色否则设置为绿色但这不起作用检查后我发现它呈现如下 tr style ba
C# - 编写 COM 服务器 - 映射到方法的属性

我们正在尝试替换最初为 VB6 应用程序编写的 COM 服务器我们无法访问源代码由于某种原因 VB6 应用程序可以调用我们的构造函数但随后它会得到系统错误 H80004002 没有这样的接口支持我假设当它尝试使用 QueryIn
Magento - 致命错误：类名必须是有效的对象或字符串

我在安装 Magento 时遇到问题希望有人能帮助我解决当我访问该网站时我突然开始收到以下错误消息 Fatal error Class name must be a valid object or a string in app co
科学记数法中的小“e”/Matlab中的Double是什么

当我计算一个非常小的数字时 matlab给出 1 12345e 15这是什么我可以将其解释为 1 12345 10 15 或其 1 12345 e 15 我很着急抱歉问了这个愚蠢的问题 e 代表指数它的科学计数法 http en wi
Crontab 格式化 - 每 15 分钟一次

我试图让一个简单的 crontab 作业每 15 分钟运行一次但在决定如何格式化计时时遇到困难我一直在写的内容如下 15 我很确定这只运行每小时的前 15 分钟我认为 crontab 允许用户指定确切的运行时间即 0 15 30 4
从主题读取后立即异步提交消息

我正在尝试在阅读主题后立即提交一条消息我已点击此链接 https www confluence io blog apache kafka spring boot application https www confluent io blo
如何在drawString Java中更改字体大小

如何让字体变大g drawString Hello World 10 10 g setFont new Font TimesRoman Font PLAIN fontSize 其中 fontSize 是一个 int 这绘制字符串的API h
异步运行一些 Python 代码的正确方法是什么？

我需要从我的普通 Flask 应用程序发送邮件所以我认为最简单的方法是使用 smtplib 发送邮件但我必须异步执行你不能只在请求中插入 3 秒的延迟对吧因此我将电子邮件添加到队列 psql 表中并从读取该表并使用 smpt
如何在 R 中创建具有特定 MA（或 q）项的 ARIMA 模型

我无法确定使用 arima stats 创建 ARMA 模型的特定方法该模型具有特定的 MA 项而这些项不仅仅由最大数指定我的意思是我需要指定一个 AR 1 MA 1 4 模型该模型应该产生截距 AR1 项 MA1 项和 MA4
将视频保存到 CameraRoll React-Native

可以使用cameraRoll在React Native上保存视频对于使用saveImageWithTag 的图像这很容易但我找不到视频文档将视频保存到相机胶卷非常容易我使用以下代码行完成了它 saveVideoToCameraRo
对数据框中的列中的数据进行分类

我的数据框中有一列数字我想将这些数字分类为例如高低排除我该如何做到这一点我一无所知我尝试查看剪切函数和类别数据类型一个简短的例子pd cut 让我们从一些数据框开始 df pd DataFrame A 0 8 2 5 9 15

对数据框中的列中的数据进行分类

对数据框中的列中的数据进行分类 的相关文章

随机推荐

热门标签

对数据框中的列中的数据进行分类的相关文章