将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

2024-05-11

我的任务是清理慈善机构设计的移动应用程序中的数据

在一个部分中，用户问答应用程序使用会话由一行表示。该部分由重复的问题答案字段对组成，其中一个字段代表所提出的问题，然后它旁边的字段代表相应的答案。每个问题/字段和答案列对一起代表一个独特的问题及其答案。

起始数据

    answers.0.answer    answers.0.fieldName answers.1.answer    answers.1.fieldName
5   0                    avoidexercise             0.0            vomitflag
6   156                  height                    54.0         weight
7   1                    affectedkneeside           3.0       painlocationknee

我被要求重新格式化该部分，以便每个问题形成一列，相应的答案成为该列中的一个字段

理想输出

_id                    avoidexercise    enjoyment   fatigue2weeks   height
        

5f27f29c362a380d3f9a9e46    1.0           yes            20.0       120.0
5f27f2ac362a380d3f9a9e4b    0.0           no             40.0       180.0
5f27f4d4362a380d3f9a9e52    1.0           yes            50.0       150.0

我的计划是创建许多数据透视表，从彼此的 Q/A 对列中创建，然后连接（外连接）然后内连接以删除重复项

但是，原始数据帧包含数字和对象数据类型的混合

因此，只有一些问题/答案列对似乎正在转换为数据透视表。我尝试过使用各种聚合函数

p1 = ur.pivot_table(index=['_id'],columns= ['answers.0.fieldName'],values=['answers.0.answer'],aggfunc=lambda x: ' '.join(x))
p2 = ur.pivot_table(index=['_id'],columns= ['answers.1.fieldName'],values=['answers.1.answer'],aggfunc=lambda x: ' '.join(x))
p3 = ur.pivot_table(index=['_id'],columns= ['answers.2.fieldName'],values=['answers.2.answer'],aggfunc=lambda x: ' '.join(x))
I have also tried another lambda function

p1 = ur.pivot_table(index=['_id'],columns= ['answers.0.fieldName'],values=['answers.0.answer'],aggfunc=lambda x: ' '.join(str(v) for v in x)
The furthest I have got so far is to run pivots with standard mean aggfunc

p1 = ur.pivot_table(index=['_id'],columns=['answers.0.fieldName'],values=['answers.0.answer'])
ps = [p1,p2,p3]
c = pd.concat(ps)

然后尝试删除合并行和列

df = c.sum(axis=1, level=1, skipna=False)

g = df.groupby('_id').agg(np.sum)

这将返回具有正确形状的数据框

但是，它会丢失对象列中的值，并且我不确定所有数字列的准确度如何

为了解决这个问题，我正在考虑将尽可能多的数据转换为数字

c4 = c.apply(pd.to_numeric, errors='ignore').info()

然后将组合的数据透视表数据框拆分为数字和对象类型

nu = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
cndf = c4.select_dtypes(include=nu)
o = ['object', 'bool', 'datetime64', 'category']
codf = c4.select_dtypes(include=o)

并在数字数据帧上运行与上面相同的 .sum 和 groupby 操作

n1 = cndf.sum(axis=1, level=1, skipna=False)
n2 = n1.groupby('_id').agg(np.sum)

然而，这仍然留下了处理对象列的挑战

以下是获得所需结果的方法：

首先定义您拥有的问答对的数量：

num_answers = 2 #Following your 'Starting data' in the question

然后使用以下几行根据需要获取数据帧：

import pandas as pd
df2 = pd.concat([pd.pivot_table(df1, index=['_id'], columns= ['answers.{}.fieldName'.format(i)], values=['answers.{}.answer'.format(i)]) for i in range(num_answers)], axis = 1).fillna('N/A')
df2.columns = [col[1] for col in df2.columns]

Here df1假设是带有起始数据的数据框。

您可能已经注意到，“N/A”出现在特定 id 没有记录该特定字段答案的单元格中。

假设三行的 ID 分别为 [1,2,3]，则输出df2您的“起始数据”将如下所示：

      affectedkneeside  avoidexercise   height  painlocationknee    vomitflag   weight
_id                     
0          N/A                0           N/A         N/A              0         N/A
1          N/A               N/A          156         N/A              N/A       54
2           1                N/A          N/A          3               N/A       N/A

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Excel

database

datacleaning

datamunging

将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段的相关文章

VBA FreeLibrary 不卸载 DLL

当我使用完一个 DLL 文件后我需要删除它代码完成后清理我尝试在 Excel VBA 中使用 LoadLibrary 和 FreeLibrary 但无论我做什么 Excel exe 都会坚持 DLL 文件 Public Declare
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
我应该检查代码中的数据库约束还是应该捕获数据库抛出的异常

我有一个将数据保存到名为作业的表中的应用程序 Jobs 表有一个名为 Name 的列该列具有 UNIQUE 约束名称列不是主键我想知道在尝试保存更新新条目之前是否应该自己检查重复条目或者最好等待数据访问层抛出异常如果这个应用
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐

matplotlib：在次要标签下绘制主要刻度标签

这看起来应该很容易但我不知道该怎么做我有一个 X 轴上有时间的图我想设置两组刻度小刻度显示一天中的小时大刻度显示日月所以我这样做 set date ticks to something sensible xax ax get
在 Rails 3 和 ActionMailer 中，是否可以使用 TLS over SSL（不是 StartTLS）发送电子邮件？

我想使用 ActionMailer 从我的铁路应用程序发送电子邮件我有一个想要使用的现有邮件服务器但它仅支持端口 465 上的 SSL TLS 但是它不支持 StartTLS 通常在端口 587 上谁能建议一种实现这一目标的方法据
JUnit 测试方法无法返回值

为什么 JUnit 测试方法无法返回值文档 https junit org junit5 docs current user guide writing tests classes and methods说强调我的测试方法和生命周期方
安装 geopandas 会卸载底图，反之亦然

我需要一个同时包含底图和 geopandas 的 Python 环境但安装其中一个会删除另一个是否有两种方法都可以或者是否有一种合理的方法可以在同一脚本中的解释器之间切换我知道底图因 cartopy 而被贬值但我正在使用底图这就
我如何通过代码在 Anylogic 中创建路径空间标记元素

我在anyloigic方面完全是菜鸟现在我正在尝试通过代码创建简单的网络具有两个点节点的网络以及链接这些节点的路径遇到一些问题当我运行模型时控制台显示使用初始化方法但我已经知道初始化方法在较低版本中已被弃用我使用的是8
我的手机设备上的 adb shell：出现奇怪的字符（终端颜色问题）

我有一台配备 DarkyRom 10 4 2 XWJW1 Android 2 3 6 和 root 访问权限的 Samsung Galaxy S 我正在实现一个应用程序我想使用 eclipse 在手机中执行它但出现错误 Activity
MySQL按总和连接表问题

我在连接表时遇到问题以下是示例表表A 30行 ID Name Description 1 Type Unicode Art 2 Header Spreadsheet 3 Auto Align Off 表B 100行 ID Name De
如何从 Linux 的 shell 中删除所有以 ._ 开头的文件？

确实如标题所示我已将许多文件从 Mac 复制到 Raspberry Pi 这导致了许多以前缀开头的多余文件我想删除以以下开头的文件夹中的每个文件我该怎么做尝试类似的方法 cd path to directory rm rf 或者如
如何在 R 中创建循环来生成随机样本列表？

我正在尝试创建一个循环来创建一系列包含随机样本的对象如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例但它可以替换为普通泊松或任何您想要的因此我构建了一个循环来自动生成各种生
如何使用c++获取system32目录的完整路径？

虽然大多数时候都是C WINDOWS system32 但有时它可以在D分区或类似的如何以编程方式获取它可以调用Windows API函数SHGetFolderPath http msdn microsoft com en us lib
RPostgreSQL 无法关闭连接

我有一个闪亮的应用程序使用它连接到数据库RPostgreSQL 在应用程序结束时连接关闭驱动程序应该被卸载但我收到错误警告我连接未关闭代码看起来像这样 in the app R file but not in the serve
Cassandra 和二级索引，它们内部如何工作？

Cassandra 二级索引内部如何运作文档指出它是某种哈希索引鉴于我有专栏username foobar 列用户名将是 CF 中的辅助索引 User with RandomOrderingPartitioner 我的假设是否正确 ca
为什么 MATLAB 在打印大量 (.png) 图形时速度会变慢？

我正在将大量数字打印为 png 文件每个图都是数据矩阵中的一列图我获取 png 文件并将它们串在一起形成动画我的问题是前几百张图像打印得很快但创建每个新图形的时间却迅速增加从前几百个 png 文件的约 0 2 秒到第 800 个
如果是持久（保持活动）连接，为什么我会在 Web 请求中到达 endOfStream？

我有一个网络请求它创建与服务器的持久保持活动连接例如 webRequest ContentType application x www form urlencoded Set the ContentLength property o
MSXML 的 loadXML 无法加载格式良好的 xml

我在 c 中的 MSXML 之上编写了一个包装器加载方法如下所示代码的问题是有时无法加载格式正确的 xml 在将 xml 作为字符串传递之前我对 xmlns 进行字符串搜索并将所有出现的 xmlns 替换为 xmlns dns 在下
Gcc 4.2 版本缺失

在我的带有 osx lion 和 XCode 4 1 的新 macbook pro 上我遇到了一些 gcc 问题 In usr bin我找不到gcc 4 2 我只有以下版本 i686 apple darwin11 llvm gcc 4 2
Tomcat：具有强密码的 TLSv1.2 不起作用

我安装了Tomcat 7 配置了对 TLSv1 2 的支持在端口 8443 上我的连接器配置协议 org apache coyote http11 Http11NioProtocol SSLEnabled true 方案 https 安
msdn 页面“C++ 常量表达式”中的拼写错误？

它说在C 常量表达式的 msdn 页面 http msdn microsoft com en us library 3ffb821x aspx that 非整数常量必须是转换显式或隐式地转换为整数类型常量表达式中合法因此下面的
Nest.js - 在猫鼬模式中创建索引

如何使用 Nest js 在猫鼬模式中创建属性索引我尝试添加索引作为属性选项但索引尚未创建 Schema export class Schema extends Document Prop id string Prop required
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问

将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段 的相关文章

随机推荐

热门标签

将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段的相关文章