根据列值和其他列更新 Pandas 单元格

2024-01-28

我希望根据一列中的值更新许多列；这对于循环来说很容易，但当有很多列和很多行时，对于我的应用程序来说花费的时间太长。获得每个字母所需的计数的最优雅的方法是什么？

期望的输出：

   Things         count_A     count_B    count_C     count_D
['A','B','C']         1            1         1          0
['A','A','A']         3            0         0          0
['B','A']             1            1         0          0
['D','D']             0            0         0          2

最优雅的绝对是 sklearn 的 CountVectorizer。

我将首先向您展示它是如何工作的，然后我将在一行中完成所有操作，这样您就可以看到它是多么优雅。

首先，我们将逐步进行：

让我们创建一些数据

raw = ['ABC', 'AAA', 'BA', 'DD']

things = [list(s) for s in raw]

然后读入一些包并初始化计数向量化器

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

cv = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False)

接下来我们生成一个计数矩阵

matrix = cv.fit_transform(things)

names = ["count_"+n for n in cv.get_feature_names()]

并另存为数据框

df = pd.DataFrame(data=matrix.toarray(), columns=names, index=raw)

生成这样的数据框：

    count_A count_B count_C count_D
ABC 1   1   1   0
AAA 3   0   0   0
BA  1   1   0   0
DD  0   0   0   2

优雅版：

以上所有内容都在一行中

df = pd.DataFrame(data=cv.fit_transform(things).toarray(), columns=["count_"+n for n in cv.get_feature_names()], index=raw)

Timing:

您提到您正在使用相当大的数据集，因此我使用 %%timeit 函数来给出时间估计。

@piRSquared 之前的回复（否则看起来非常好！）

pd.concat([s, s.apply(lambda x: pd.Series(x).value_counts()).fillna(0)], axis=1)

100 loops, best of 3: 3.27 ms per loop

我的答案：

pd.DataFrame(data=cv.fit_transform(things).toarray(), columns=["count_"+n for n in cv.get_feature_names()], index=raw)

1000 loops, best of 3: 1.08 ms per loop

根据我的测试，计数向量化器大约快 3 倍。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

apply

根据列值和其他列更新 Pandas 单元格的相关文章

如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

imagerotate() 不起作用

我的 imagerotate PHP 函数有问题我运行下面的脚本它成功地使用 imagejpeg 创建了新图像但新图像与原始图像相同因此它不会旋转它它在 Apache error log 中没有显示错误消息所以我不知道 file
mysql用触发器设置最大行数

我想创建一个最多包含 5 行的表因此如果我添加新行并且表已经有 5 行则触发器应删除第一行并添加新行 e g my table id data 1 a 2 b 3 c 4 d 改成 my table id data 2 b 3 c 4
是否可以创建一个通用的 Session.QueryOver ？

出于好奇是否可以使用 NHibernate 3 执行类似的操作 public IQueryable
为什么我的程序会改变布尔值？ [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在编写一个简单的程序用于检查输入单词是否可以用输入字母拼写无论我输入什么布尔值总是会更改为 true 即使 if 语句中
Symfony：Doctrine 数据装置：如何处理大型 csv 文件？

我正在尝试使用学说数据固定装置从大 CSV 文件 3Mo 37000 行 7 列插入在 mySQL 数据库中数据过程非常缓慢此时我无法成功可能我还得再等一会儿我想学说数据装置并不是为了管理如此大量的数据也许解决方案应该是将
有免费的 XNA UI 库吗？

我正在考虑游戏中的游戏用户界面查看 XNAML http msmvps com blogs valentin pages xnaml component aspx http msmvps com blogs valentin pages
类成员的继承，与模板混合

在下面的代码中为什么T2给出这个错误 m t was not declared in this scope 而结核病还好吗我如何在仍然使用模板的情况下访问 T2 中的 T1 成员 All good class TA public TA
如何为某种特定类型而不是全局设置 Json.NET ContractSerializer？

我想仅为 ASP NET Web API 应用程序中的某些类型设置合同序列化程序我可以在 App Start FormatterConfig cs 中全局设置设置如下所示 public static void RegisterGloba
简洁和匿名类型

是否可以在 Dapper 中使用匿名类型我可以看到如何使用动态即 connection Query
Java – 高效、数据库感知的实例级授权？

在 JPA 应用程序中我有一个场景其中该应用程序是列出给定用户有权提款的所有帐户我有帐户实体和一个多对多表其中列出了每个用户对每个帐户拥有的授权为了实现上述场景应用程序当前只是内部联接两个表这非常快现在我计划添加一个显式
从 SQL SERVER 中的 CTE 删除行

我有一个 CTE 它是表上的选择语句现在如果我从 CTE 中删除 1 行它会从我的基表中删除该行吗如果我有一个临时表而不是 CTE 情况也是一样吗检查DELETE语句文档 http msdn microsoft com en us
Azure 服务总线通知中心是否可以与 websockets 和 javascript 配合使用？

我对使用 Azure 服务总线通知中心感兴趣然而我的第一个客户端将是使用 Knockout 与 ASP NET MVC 站点进行基于 Websocket 的连接目前我正在尝试使用 SignalR 向客户端推送通知然而如果我可
从命令行运行 android 单元测试？

我正在尝试按照以下方式在 android 平台上运行单元测试tutorial http developer android com guide topics testing testing android html 举例来说我想为电子邮件
Symfony2 中 $em->clear() 出现未定义索引错误

我编写了一个 Symfony 命令来从 API 导入一些数据它可以工作但问题是当我在数据库中插入一个大的 JSON 时我的 PHP 内存使用量会增加每次导入活动后我的工作单位都会增加 2 我已经取消设置了所有使用过的对象并且当你
如何通过代码有选择地禁用浏览器文本输入中的自动填充？

是否可以使用代码有选择地禁用文本字段中的自动填充功能我正在 ASP Net AJAX 中开发自定义代码以在数据库中搜索建议并且我想防止当用户开始在文本框中键入内容时出现浏览器建议我正在寻找一种适用于最现代的浏览器 IE 7 和 8 F
Angular UI Router根命名视图模板从子视图更改

安装程序使用 Angular v1 5 8 和 ui router v0 3 1 我的根视图有几个命名部分为了简洁起见我删除了其中的一些部分看起来像这样 section div div section section div div
上的 SlideToggle() 会导致“跳转”

使用 jQuery 时slideToggle 函数显示隐藏表中新行上的数据会导致其卡顿然而当使用slideToggle 显示隐藏 div 它工作得非常顺利谁能告诉我为什么会发生这种情况小提琴示例 http jsfiddle ne
.net 的 S/MIME 库？

我需要使用 C 创建 S MIME 消息如 RFC 2633 S MIME 版本 3 消息规范和 RFC 3335 中指定我能找到的唯一 S MIME 库是一个商业库 http www example code com csharp
如何使用或不使用尾部斜杠进行 301 重定向？

我想重定向site com login OR site com login to site com wp login php 这是我到目前为止所拥有的 RewriteRule login wp login php R 301 L 但它不会重
根据列值和其他列更新 Pandas 单元格

我希望根据一列中的值更新许多列这对于循环来说很容易但当有很多列和很多行时对于我的应用程序来说花费的时间太长获得每个字母所需的计数的最优雅的方法是什么期望的输出 Things count A count B count C coun