Pandas 使用除 apply 之外的许多条件添加新列的替代方法

2024-04-02

我有两个数据框，比方说df and map_dum。这里是df.

>>> print(df)
    sales
0       5
1      10
2       9
3       7
4       1
5       1
6      -1
7       2
8       9
9       8
10      1
11      3
12     10
13     -2
14      8
15      5
16      9
17      6
18     10
19     -1
20      5
21      3

这是为了map_dum.

>>> print(map_dum)
   class  more_than_or_equal_to  less_than
0     -1                  -1000          0
1      1                      0          2
2      2                      2          4
3      3                      4          6
4      4                      6          8
5      5                      8         10
6      6                     10       1000

我的目标是添加新列df，柱子class。为此，我必须检查中的值df['sales']位于其中的值之间map_dum。例如，如果我想知道class对于第一行df['sales'], 5, 那么class将为 3。最终输出如下所示。

>>> print(df)
    sales  class
0       5      3
1      10      6
2       9      5
3       7      4
4       1      1
5       1      1
6      -1     -1
7       2      2
8       9      5
9       8      5
10      1      1
11      3      2
12     10      6
13     -2     -1
14      8      5
15      5      3
16      9      5
17      6      4
18     10      6
19     -1     -1
20      5      3
21      3      2

目前，我正在使用apply然而，要解决这个问题，速度非常慢，因为我的数据集非常大。

def add_class(sales, mapping, lower_limit, upper_limit):
    result = mapping.loc[((mapping[lower_limit]<=sales)&(mapping[upper_limit]>sales)), 'class'].tolist()[0]
    return result

df['class'] = df['sales'].apply(lambda sales: add_class(sales, map_dum, 'more_than_or_equal_to', 'less_than'))

因此，对于我来说，性能确实很重要。任何其他方式添加class列到df在不违反标准的情况下，像矢量化解决方案之类的东西？谢谢你的帮助！

我想你需要cut http://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html:

bins = [-1000, 0, 2, 4, 6, 8, 10, 1000]
labels=[-1,1,2,3,4,5,6]
df['class'] = pd.cut(df['sales'], bins=bins, labels=labels, right=False)
print (df)
    sales class
0       5     3
1      10     6
2       9     5
3       7     4
4       1     1
5       1     1
6      -1    -1
7       2     2
8       9     5
9       8     5
10      1     1
11      3     2
12     10     6
13     -2    -1
14      8     5
15      5     3
16      9     5
17      6     4
18     10     6
19     -1    -1
20      5     3
21      3     2

对于动态添加值map_dum use:

bins = [map_dum['more_than_or_equal_to'].iat[0]] + map_dum['less_than'].tolist()
labels= map_dum['class']
df['class'] = pd.cut(df['sales'], bins=bins, labels=labels, right=False)
print (df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

vectorization

Pandas 使用除 apply 之外的许多条件添加新列的替代方法的相关文章

ModuleNotFoundError：没有名为“pandas.io.formats.csvs”的模块

我正在尝试创建一个简单的 csv dataframe to csv psv file name encoding utf 8 header True sep doublequote True quoting csv QUOTE ALL in
如何在列表的解析参数中解析列表（字符串）而不是列表（字符）？

我在flask中使用flask restful 我的代码如下 from flask restful import Resource reqparse apilink parser reqparse RequestParser apilink
使用魔法函数 %matplotlib inline

我试图看看使用之间的区别 matplotlib 内联并且没有这个声明但两次输出没有区别然后它有什么用 Output without matplotlib inline line Output with matplotlib inline
numpy.nan_to_num - 'nan' 关键字无法识别

当您尝试使用以下代码将 nan 值替换为自定义数值时 np nan to num exp allowance nan 9999 99 它产生以下错误 typeerror nan to num got an unexpected keywor
如何将整个列表分配给 pandas 数据帧的每一行

我有一个数据框和一个列表 df pd DataFrame A 1 2 3 B 4 5 6 mylist 10 20 30 40 50 我希望有一个列表作为数据帧的每一行中的元素如果我喜欢的话here https stackoverflow
使用 python-3.x 从 zip 存档中读取 CSV 文件

我有一个压缩档案其中包含几个csv files 例如假设myarchive zip包含myfile1 csv myfile2 csv myfile3 csv In python 2 7我能够迭代加载所有myfiles in pandas
pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的DataFrame to parquet将写入拆分为多个大约所需大小的文件的功能我有一个非常大的 DataFrame 100M x 100 并且正在使用df to parquet data snappy en
设置数据类型为 Decimal 的 pandas 数据框列的小数精度

我有一个包含两列的 pandas 数据框第 1 列包含文本第 2 列包含十进制值 Key Value A 1 2089 B 5 6718 B 7 3084 我使用 apply 函数将值列的数据类型设置为 Decimal Python D
向 Python 函数添加属性的最佳方法

以计算数学函数的 Python 函数为例 def func x a b c Return the value of the quadratic function ax 2 bx c return a x 2 b x c 假设我想以函数属性的
为什么类型提示不能在 for 循环中使用？

在 a 中注释目标for声明无效 gt gt gt for i str in test string File
Django celery 4 - ValueError：启动 celery 工作程序时，以 10 为基数的 int() 的文字无效

我已将 celery py 配置为其文档但我将 celery 代理 URL 放入 AWS SQS 但无法启动它工作当我运行 celery 工作程序时我得到的 ValueError 为 File Users abd Desktop pr
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
如何在arm64主机上运行amd64 docker镜像

警告请求的映像平台 linux amd64 与检测到的主机平台 linux arm64 v8 不匹配并且未请求特定平台 2021 07 28 22 25 06 349222 F tensorflow core platform cpu
pyVISA：以编程方式将仪器返回到本地模式

我正在使用 pyVISA 来控制 GPIB 网络中的一些仪器当我创建资源管理器时 GPIB 网络中的所有仪器都会进入远程模式因此前面板显示被锁定并且不会更新当我关闭资源管理器时仪器仍处于远程模式 import visa rm vis
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
distutils.errors.DistutilsPlatformError：需要 Microsoft Visual C++ 14.0

我想安装Pandas在我的机器上但出现以下消息错误 distutils errors DistutilsPlatformError 需要 Microsoft Visual C 14 0 获取它与 Microsoft Visual C 构
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来

随机推荐

Android 中的上传和下载速率分析[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试开发一个 Android 应用程序来测量网络的上传和下载速度我可能需要每 2 秒左右运行一次并对其进行分析 SpeedTe
return Json 函数没有更新我的下拉列表

我有一个包含填充下拉列表的视图我添加了一个按钮以便用户可以在 jquery 模式中添加新的下拉列表值因此当用户单击添加新的下拉列表值时我想刷新下拉列表但目前没有任何更新这是我对下拉列表的看法 model Communique M
调用方法出错，启动jvm失败

我正在使用 javafx v8 0 40 开发桌面应用程序我用inno 5创建了一个exe文件当我在计算机中运行exe文件时它已安装并运行没有任何问题另一方面当我尝试在其他计算机上安装并运行它时在安装结束时会弹出窗口对话框
创建文件系统“驱动程序”

我想为 Windows 物理磁盘上的自定义文件系统创建一个驱动程序我不完全知道解释它的最佳方式但该设备已经具有适当的驱动程序以及 Windows 与之通信的所有内容但我希望用户能够将设备插入到他们的电脑将其显示在我的电脑中并
调用 didEnterBackground 后是否可以在主线程上执行某些操作？

首先如果您认为我的问题是虚拟的我想说声抱歉我是 iOS 和多线程的新手只是想了解事情是如何发生的据我所知didEnterBackground是 iOS 在应用程序挂起之前调用的最后一个函数应用程序有大约 5 秒的时间从中返回否
用不均匀向量列表中的正值替换正表值

背景我最近问这个问题 https stackoverflow com questions 72899527 replacing a subset of table values with a list of vectors 然而我使示例
在 Excel 中打开特定电子表格的 win cmd 是什么？

我知道您可以从 win cmd 行打开 Excel 文件但是如何使用 win cmd 打开该文件中的特定电子表格呢将以下代码粘贴到文本编辑器记事本写字板 Word ETC 例如使用 vbs 扩展名保存文件 ExcelSheet2
使用 Javascript 将数据/有效负载发送到 Google Chrome 推送通知

我正在研究 Google Chrome 推送通知并尝试将有效负载发送给 google Chrome 工作人员但是我不知道如何接收此有效负载我有一个 API 可以在数据库中创建和保存通知我需要通过以下方式发送值 https andro
JACC 提供程序如何使用其部署的服务器的主体到角色映射功能？

我正在写一个JACC提供者在此过程中这意味着实施PolicyConfiguration http download oracle com javaee 6 api javax security jacc PolicyConfigurat
Angular 6：错误 TypeError：“...不是一个函数” - 但它是

我现在真的很困惑因为我得到了ERROR TypeError this device addKeysToObj is not a function 但我实现了这个函数所以我不知道有什么问题或者为什么它不可调用我已经在 Firefox 和
从 HTTP 端点发送消息到 JMS

我正在尝试使用骆驼路由它将接受 http 端点上的有效负载然后将该有效负载写入 JMS 队列到目前为止我所拥有的路线如下但是一条空消息被传递到 jms 队列消息到达那里但没有正文路线如下
为什么 pytesseract 导致 AttributeError: 'NoneType' 对象没有属性 'bands'？

我正在尝试开始使用 pytesseract 但正如你在下面看到的我遇到了问题我发现人们遇到了似乎相同的错误他们说这是 PIL 1 1 7 中的错误其他人说这个问题是由于 PIL 懒惰造成的需要强制 PIL 加载图像im load
array_reduce() 不能用作 PHP 的关联数组“reducer”？

我有一个关联数组 assoc 并且需要将其简化为字符串在这种情况下 OUT
在下载之前使用 HTTP 标头获取文件大小，该标头与从 urlopen 检索到的标头不匹配

为什么使用时内容长度不同requests and urlopen url info gt gt gt url http pymotw com 2 urllib index html gt gt gt requests head url he
强制 RecyclerView 位于布局中的页面底部

我有一个页面其中包含ImageView and a RecyclerView The RecyclerView包含少量项目当前为三个并且仅占用我的测试设备上屏幕的四分之一左右然而尽管尝试了多种布局选项我还是无法得到Recycle
使用可变参数模板的多键映射

我正在尝试使用 C 中的可变参数模板来实现具有不同访问键的映射我想要得到的是使这样的语法起作用 MultikeyMap
为什么我的 gradle 同步每次总是下载 groovy-xxxx-3.0.9.pom？

这是一个 android 项目我没有对 groovy xxxx 3 0 9 pom 的明确依赖如 datetime util console 等但 gradle 同步每次都会下载它们我的 build gradle kts 也不使用
当我将 jquery 库放在 body 之前时 $(document).ready 不起作用

这是工作 p This is a paragraph p
Team Foundation 服务器项目模板

当我们在TFS中创建项目时我们总是遵循以下步骤 1 创建新的团队项目 2 创建工作空间关联源代码管理文件夹和本地文件夹 3 在团队项目下创建三个文件夹 Main Dev Release 4 将源签入到 Main 5 将主干转换为分支 6
Pandas 使用除 apply 之外的许多条件添加新列的替代方法

我有两个数据框比方说df and map dum 这里是df gt gt gt print df sales 0 5 1 10 2 9 3 7 4 1 5 1 6 1 7 2 8 9 9 8 10 1 11 3 12 10 13 2 14

Pandas 使用除 apply 之外的许多条件添加新列的替代方法

Pandas 使用除 apply 之外的许多条件添加新列的替代方法 的相关文章

随机推荐

热门标签

Pandas 使用除 apply 之外的许多条件添加新列的替代方法的相关文章