子串上的熔化和合并 - Python 和 Pandas

2024-02-21

我有数据，其中有类似的数据

id      name    model_#   ms   bp1   cd1    sf1    sa1   rq1   bp2   cd2   sf2   sa2   rq2 ... 
1       John    23984     1    23    234    124     25   252   252    62   194    234   234 ... 
2       John    23984     2    234   234    242     62   262   622   262   622    26    262 ...

适用于数百个模型，时间长达 10 毫秒，变量计数高达 21。

我通常使用 pd.melt 进行分析，查看 bp1:bp21 或其他内容。我目前需要创建一个熔化，在其中查看 bp1 值和 rq 1 值。

我希望有效地创建这样的东西：

              id  model_#  ms  variable_x  value_x variable_y  value_y
0            113    77515   1        bp1     23        rq1      252
1            113    77515   1        bp2     252       rq2      262
2            113    77515   1        bp3     26        rq3      311

目前我能做的最好的事情是：

              id  model_#  ms variable_x  value_x variable_y  value_y
0            113    77515   1        bp1     23        rq1      252
1            113    77515   1        bp1     23        rq2      262
2            113    77515   1        bp1     23        rq3      311
3            113    77515   1        bp1     23        rq4      246

via:

df = pd.melt(dat, id_vars=['id', 'mod_req', 'ms'], value_vars=bp)
df1 = pd.melt(dat, id_vars=['id', 'mod_req', 'ms'], value_vars=rq)
df2 = pd.merge(df,df1, on=['id', 'mod_req', 'ms'])

有没有一种简单的方法可以合并子字符串，以便 bp1 与 rq1 等连接？这意味着采用仅查看 bp1:bp21 的熔化数据帧和其他熔化数据帧 rq1:rq21 并根据子字符串值进行合并（bp1 rq1，而不是 bp1 rq2）

Solution

设置索引...
使用巧妙的专栏groupby...
另一个巧妙的功能apply...

d1 = df.set_index(['id', 'name', 'model_#', 'ms'])

def melt_(df):
    id_vars = df.index.names
    return df.reset_index().melt(id_vars=id_vars).set_index(id_vars)


d2 = d1.groupby(d1.columns.str.extract('(\D+)', expand=False), axis=1).apply(melt_)

d2.columns = d2.columns.swaplevel(0, 1).map('_'.join)
d2.reset_index()

   id  name  model_#  ms variable_bp  value_bp variable_cd  value_cd variable_rq  value_rq variable_sa  value_sa variable_sf  value_sf
0   1  John    23984   1         bp1        23         cd1       234         rq1       252         sa1        25         sf1       124
1   2  John    23984   2         bp1       234         cd1       234         rq1       262         sa1        62         sf1       242
2   1  John    23984   1         bp2       252         cd2        62         rq2       234         sa2       234         sf2       194
3   2  John    23984   2         bp2       622         cd2       262         rq2       262         sa2        26         sf2       622

过度功能化

e = lambda d, n: dict(zip(n, d.dtypes))
i = lambda d, n: pd.DataFrame(d.values, d.index, n).astype(e(d, n))
h = lambda d: i(d, d.columns.map(fmt)).reset_index()
m = lambda d: d.reset_index().melt(cols).set_index(cols)
fmt = '{0[1]}_{0[0]}'.format

cols = ['id', 'name', 'model_#', 'ms']

d1 = df.set_index(cols)
g = d1.columns.str.extract('(\D+)', expand=False)
d1.groupby(g, axis=1).apply(m).pipe(h)

   id  name  model_#  ms variable_bp  value_bp variable_cd  value_cd variable_rq  value_rq variable_sa  value_sa variable_sf  value_sf
0   1  John    23984   1         bp1        23         cd1       234         rq1       252         sa1        25         sf1       124
1   2  John    23984   2         bp1       234         cd1       234         rq1       262         sa1        62         sf1       242
2   1  John    23984   1         bp2       252         cd2        62         rq2       234         sa2       234         sf2       194
3   2  John    23984   2         bp2       622         cd2       262         rq2       262         sa2        26         sf2       622

旧答案

这一点也不漂亮，我什至不确定这是否是您想要的。

d1 = df.set_index(['id', 'name', 'model_#', 'ms'])

cidx = pd.MultiIndex.from_tuples(
    d1.columns.to_series().str.extract('(\D+)(\d+)', expand=False).values.tolist(),
    names=[None, 'variable']
)

d1.columns = cidx

d2 = d1.sort_index(axis=1).stack()

variables = pd.DataFrame(
    (d2.columns + d2.index.get_level_values('variable')[:, None]).tolist(),
    d2.index, d2.columns
)

d3 = pd.concat(
    [variables, d2], axis=1, keys=['variable', 'value']
).reset_index('variable', drop=True).sort_index(axis=1, level=1, sort_remaining=False)

d3.columns = d3.columns.map('_'.join)

d3.reset_index()

   id  name  model_#  ms variable_bp  value_bp variable_cd  value_cd variable_rq  value_rq variable_sa  value_sa variable_sf  value_sf
0   1  John    23984   1         bp1        23         cd1       234         rq1       252         sa1        25         sf1       124
1   1  John    23984   1         bp2       252         cd2        62         rq2       234         sa2       234         sf2       194
2   2  John    23984   2         bp1       234         cd1       234         rq1       262         sa1        62         sf1       242
3   2  John    23984   2         bp2       622         cd2       262         rq2       262         sa2        26         sf2       622

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

MERGE

melt

子串上的熔化和合并 - Python 和 Pandas 的相关文章

如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
python 没有名为serial的模块

我的 python 程序有问题我编写了程序来将数据温度从 arduino 获取到我的树莓派 sqlite 数据库但它在第 4 行导入串行处给了我一个错误提示 ImportError 没有名为串行的模块我使用 python3
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
如何配置应用程序中的所有记录器

Python 的日志记录模块允许模块或类定义自己的记录器不同的记录器可以有不同的处理程序其中一些可能选择记录到文件而另一些则选择记录到标准输出现在我的应用程序使用其中几个模块每个模块都有自己的记录器这些记录器具有各种处理程序
使用 MinGW 链接到 Python

我不想创建一个嵌入Python解释器的跨平台程序并用MinGW编译它但是 Python 二进制发行版没有提供 MinGW 链接的库仅python32 lib对于 Visual C 并且 Python 源包不提供使用 MinGW 编译的
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
可空日期列合并问题

我在 Geronimo 应用程序服务器上使用 JPA 和下面的 openjpa 实现我也在使用MySQL数据库我在更新具有可为空 Date 属性的对象时遇到问题当我尝试合并 Date 属性设置为 null 的实体时不会生成 sql
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp

随机推荐

我应该将静态文件放在 Jekyll 中的哪个文件夹中？

当我在看医生时我看到了以下文档结构 config yml drafts begin with the crazy ideas textile on simplicity in technology markdown includes fo
为什么不能通过“数据执行预防”来修复 Javascript shellcode 漏洞？

The 堆喷 http en wikipedia org wiki Heap spraying JavaScript维基百科文章表明许多 javascript 漏洞利用涉及将 shellcode 放置在脚本的可执行代码或数据空间内存中的某
RecyclerView 模糊 setVisibility 函数，点击一个视图影响多个视图

这是项目 https github com kiddBubu RecyclerViewDemo我正在努力奔跑这是我来自 RecyclerView Adapter 类的 onBindViewHolder 的代码 Override publi
服务器返回 HTTP 响应代码：URL 为 500 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 java io IOException Server returned HTTP response code 500 for URL ht
Django admin：缺少某些记录的内联

我在 django 管理站点和内联方面遇到一些问题我已经用谷歌搜索解决方案两天了但一无所获我有两个模型 class Measurement models Model user models ForeignKey User date m
在 Android 游戏中保存高分 - 共享首选项

最近我正在开发一个简单的android游戏对于评分部分我在许多网站上都提到共享偏好最能保存高分现在如果我需要保存游戏中不同关卡的高分该怎么办我希望保存每个级别的前三名得分手的得分要保存您的分数您可以执行以下操作 prepare
直接写入 std::string 内部缓冲区

我正在寻找一种跨 DLL 边界将一些数据填充到字符串中的方法因为我们使用不同的编译器所以我们所有的dll接口都是简单的char 是否有正确的方法将指针传递到 dll 函数中以便它能够直接填充字符串缓冲区 string stringTo
我应该使用什么技术来编写游戏？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Google Player 游戏服务错误：无法构建示例游戏

我无法构建示例游戏TypeANumberChallenge由 Google 提供参见GitHub https github com playgameservices android basic samples tree master Ba
从指定的屏幕区域创建位图

我正在尝试从屏幕上的特定区域创建位图例如在下图中我如何捕获下面的窗口区域并将其转换为位图我知道您可以使用 setDrawingCacheEnabled true 但是当我想要的只是视图中的一个区域时它会捕获整个视图其实你可以用A
RStudio 演示文稿/slidify/pandoc 中的两列布局

我正在尝试想出一个好的系统来生成幻灯片和随附的讲义理想的系统将具有以下属性演示文稿 PDF HTML 和讲义 PDF 布局都很漂亮讲义应该有做笔记的空间嵌入 R 块图形其他 JPG PNG 图片等易于创作使用命令行工具构建
如何声明一个字节ArrayList

我正在尝试做 var mahByteArray new ArrayList
如何更改CUDA版本

我在编译修改后的caffe版本时遇到了这个错误 OpenCV static library was compiled with CUDA 7 5 support Please use the same version or rebuild
自由格式代码可以包含在固定格式代码中吗？

我继承了一个固定格式文件 FFTRUN f 该文件的开头如下所示 SUBROUTINE FFTRUN 2e USE intrinsic ISO C BINDING USE FFTWmod ONLY FFTWplan fwd FFTWplan
发布到 IIS 后启用 CORS 不起作用

我将 dotnet core 2 2 Web api 应用程序托管到本地 IIS 当我运行托管网站时网站正在运行我正在尝试从角度登录但它不起作用 It says 从源 http localhost 4200 访问位于 http 192
如何在维护模式下使用 Nginx 提供静态资产（503）[重复]

这个问题在这里已经有答案了我在我的网站服务器上使用 Nginx 作为前端代理我想用它来将用户重定向到我的 Web 应用程序当它处于活动状态时或当我处于维护模式时将用户重定向到维护 php 页面这是我的服务器指令 server li
Node.js process.exit() 不会在 createReadStream 打开时退出

我有一个通过 EAGI 与 Asterisk 通信的程序 Asterisk 打开我的 Node js 应用程序并通过 STDIN 向其发送数据程序通过 STDOUT 发送 Asterisk 命令当用户挂断电话时 Node js 进程会收
C *[] 和 ** 之间的区别

这可能是一个有点基本的问题但是写 char 和 char 有什么区别例如在 main 中我可以有一个 char argv 或者我可以使用 char argv 我认为这两种符号之间一定存在某种差异在这种情况下根本没有区别如果您尝
如何在 Java 中向字符串添加换行符？

在 Java 应用程序中我创建一个如下所示的字符串通过串联 String notaCorrente dataOdierna testoNotaCorrente 我的问题是我想在此字符串末尾添加类似 HTML 换行符的内容将显示在 HT
子串上的熔化和合并 - Python 和 Pandas

我有数据其中有类似的数据 id name model ms bp1 cd1 sf1 sa1 rq1 bp2 cd2 sf2 sa2 rq2 1 John 23984 1 23 234 124 25 252 252 62 194 234 2

子串上的熔化和合并 - Python 和 Pandas

子串上的熔化和合并 - Python 和 Pandas 的相关文章

随机推荐

热门标签