基于 Pandas 中的管道分隔列创建多个新列

2024-04-29

我有一个 pandas 数据框，其中有一个管道分隔的列，其中包含任意数量的元素，称为“零件”。这些管道串中的元素数量从 0 到超过 10 个不等。所有管道串中包含的唯一元素的数量并不比行数小很多（这使得我无法在创建新列）。

对于每一行，我想创建一个新列，充当管道分隔列表中每个元素的指示变量。例如，如果行

...'Parts'...

...'12|34|56'

应该转化为

...'Part_12' 'Part_34' 'Part_56'...

...1 1 1...

因为它们有很多独特的部分，所以这些列显然会很稀疏 - 大部分为零，因为每行只包含一小部分独特的部分。

我还没有找到任何不需要手动指定列的方法（例如，Pandas Dataframe：将列拆分为多列，右对齐不一致的单元格条目 https://stackoverflow.com/questions/23317342/pandas-dataframe-split-column-into-multiple-columns-right-align-inconsistent-c）。我也研究了熊猫的融化，但我认为这不是合适的工具。

我知道如何解决这个问题的方法是将原始 CSV 通过管道传输到另一个 python 脚本，并逐个字符地处理它，但我需要在现有脚本中工作，因为我将处理数百个 CSV这种方式。

这是数据的更好说明

ID YEAR AMT PARTZ

1202 2007 99.34

9321 1988 1012.99 2031|8942

2342 2012 381.22 1939|8321|Amx3

您可以使用get_dummies and add_prefix:

df.Parts.str.get_dummies().add_prefix('Part_')

Output:

   Part_12  Part_34  Part_56
0        1        1        1

编辑评论并计算重复项。

df = pd.DataFrame({'Parts':['12|34|56|12']}, index=[0])
pd.get_dummies(df.Parts.str.split('|',expand=True).stack()).sum(level=0).add_prefix('Part_')

Output:

   Part_12  Part_34  Part_56
0        2        1        1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

基于 Pandas 中的管道分隔列创建多个新列的相关文章

Keras ZeroDivisionError：整数除法或以零为模

我正在尝试使用 Keras 和 Tensorflow 实现卷积神经网络我有以下代码 from keras models import Sequential from keras layers import Conv2D MaxPoolin
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
Pandas如何按时间段过滤DataFrame

我有一个包含下表的文件 Name AvailableDate totalRemaining 0 X3321 2018 03 14 13 00 00 200 1 X3321 2018 03 14 14 00 00 200 2 X3321 20
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Django 1.7 应用程序配置导入错误：没有名为 appname.apps 的模块

我正在尝试按照以下文档为我的一个名为文章的 Django 应用程序设置自定义应用程序配置https docs djangoproject com en dev ref applications https docs djangoproj
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
python中将对象数据类型转换为字符串问题

如何将对象数据类型结构转换为字符串数据类型下面的方法不起作用该列仍然存在object转换为字符串后 astype import pandas as pd df pd DataFrame country A B C D E df dtyp
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as

随机推荐

通过 ant 构建脚本将命令行参数传递给 Java

运行以下命令时 ant targetname Dk1 v1 Dk2 v2 我想要将命令行参数传递给java like java whatever Dk1 v1 Dk2 v2 我需要从 Java 代码访问这些参数System getPrope
当线程无法访问所有已用堆时查找 Java 内存泄漏

我正在研究基于 Java 的大型系统中潜在的内存泄漏或至少是内存浪费 JVM 运行时的最大堆大小为 5 GB 2 3GB 堆使用量是应用程序的预期基准可能会有更高的峰值在我正在调查的过载场景中堆被填满使用 Eclipse Memo
如何在 Pygame 中制作边框

我试图让游戏的某个区域周围有边框并使用一种尺寸来不断更改我的代码以便它适用于一种尺寸这是代码 screen xpos ypos height width border width color def draw borders s x
H2O R 中的子集化

我有一个 h2o 对象子集的标准 R sub1 lt trans trans Type 1 我在水中也尝试过同样的方法它不工作 sub1 lt trans trans Type 1 我也尝试过 sub1 lt h2o exec tran
ViewPager 具有不同的纵向和横向适配器

在纵向模式下我的ViewPager有 3 个片段 A B C 但在横向模式下它只有 2 个片段 A 和 C 所以我创建了 2 个FragmentStatePagerAdapters 代表每种模式问题是当屏幕方向改变时 ViewPage
我可以将 Selenium WebDriver 与 Google Cloud Functions 结合使用吗？

我正在尝试使用 Selenium 构建解决方案我可以使用 Firebase Functions 通过 Selenium 初始化和加载网页吗我发现一些资源说不然而他们没有给出任何来源而且他们已经4岁了在 Cloud Functio
nuget 创建两个包文件夹？

OK 所以我最近重新安装了Windows 10并升级了vs2013 gt vs2015 此时我试图获取几个 nuget 包我遇到的问题是我有一个 nuget packages 文件夹其级别与我的解决方案文件通过 NuGet conf
如何使用 C# 更新 Active Directory 属性。

如何使用 C 更新 Active Directory 属性就我而言我有以下情况对于每个用户都有一个WhenCreatedAD 中的属性但我想要的是如果whenDate设置的时间少于 30 天info归因于NEW在活动目录中我怎样
uWSGI重启时停机

每次当我有代码更新时重新启动服务器时我都会遇到 uwsgi 问题当我使用 sudo restart account 重新启动 uwsgi 时停止和启动实例之间存在一个小间隙导致停机并停止所有当前请求当我尝试 sudo reload
UIAlertController 的警报无法关闭它

我正在创建警报但当用户按确定时无法将其关闭我收到以下错误 2017 12 28 07 03 50 301947 0400 Prestamo 691 215874 API 错误返回 0 宽度假设 UIViewNoIntrinsic
龙卷风网络和线程

我是 Tornado 和 Python 线程的新手我想要实现的目标如下我有一个龙卷风网络服务器它接受用户的请求我想在本地存储一些数据并定期将其作为批量插入写入数据库 import tornado ioloop import tor
跨浏览器可拉伸圆角，具有语义代码和最少的图像使用。是否可以？

我知道如果没有 Javascript 或图像 IE 不可能制作圆角如果禁用 js JS 解决方案将无法工作所以我想使用图像选项我需要任何图像 css解决方案来使跨浏览器兼容圆角divminimal 容易制作和纯粹的semantic a
C++ Redistributable 14 与 VS2017 C++ Redistributable 冲突

我重建了一台笔记本电脑并在此过程中安装了 VS2017 其中包括安装 C 2017 Redistributable x64 14 10 24728 我尝试安装其他使用 C Redist 14 的应用程序但它们失败并显示错误消息该产品的
为什么内联声明不是不完整类型？

考虑下面的代码 struct Foo struct Bar Foo Bar bar Why isn t Bar an incomplete type struct Bar Full definition struct Bar fails t
在heroku上部署git子目录

我必须从非主分支部署 git 子目录我看过这个答案 https stackoverflow com questions 7539382 how can i deploy from a git subdirectory and to Her
BackupAgent：“无法恢复包...”

我已经实现了 BackupAgent 如下所述数据备份 http developer android com guide topics data backup html 注册了一个 API 密钥并在我的 Manifest 中声明了 Back
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
如何让我的精灵向鼠标位置发射一个对象？

对于一个学校项目我需要通过实现一种向鼠标位置射击 Kunais Shurikens 的方式来完成下面的 pygame 程序以便能够击中敌人精灵 import pygame import math import random from p
重新排列关联数组的最优雅的方法是什么？

假设你有一个关联数组 hash Fruit Apple hash Name Jeff hash Car Ford 并且您无法更改这些变量的创建顺序因此 Car 总是在 Name 等之后添加到数组中将 Car 添加移动到关联数组的开头而
基于 Pandas 中的管道分隔列创建多个新列

我有一个 pandas 数据框其中有一个管道分隔的列其中包含任意数量的元素称为零件这些管道串中的元素数量从 0 到超过 10 个不等所有管道串中包含的唯一元素的数量并不比行数小很多这使得我无法在创建新列对于每一行我想创建一

基于 Pandas 中的管道分隔列创建多个新列

编辑评论并计算重复项。

基于 Pandas 中的管道分隔列创建多个新列 的相关文章

随机推荐

热门标签

基于 Pandas 中的管道分隔列创建多个新列的相关文章