对公司名称的 DataFrame 进行非规范化 [第 1 部分]

2024-03-27

我有一个公司名称的 Pandas DataFrame，其结构如下：

import numpy as np
import pandas as pd

df = pd.DataFrame({'name' : ['Nitron', 'Pulset', 'Rotaxi'], 
                   'postal_code' : [1410, 1020, 1310], 
                   'previous_name1' : ['Rotory', np.NaN, 'Datec'],
                   'previous_name2' : [ np.NaN, 'Cmotor', np.NaN],
                   'previous_name3' : ['Datec', np.NaN, np.NaN]
                  })

print(df)

| name   | postal_code | previous_name1 | previous_name2 | previous_name3 |
|--------|-------------|----------------|----------------|----------------|
| Nitron | 1410        | Rotory         | NaN            | Datec          |
| Pulset | 1020        | NaN            | Cmotor         | NaN            |
| Rotaxi | 1310        | Cyclip         | NaN            | NaN            |

您会注意到，一家公司最多可以有三个以前的名称。

我的目标是“非规范化”上表，以便新的 DataFrame 具有以下形式：

| name   | postal_code |
|--------|-------------|
| Nitron | 1410        |
| Rotory | 1410        |
| Datec  | 1410        |
| Pulset | 1020        |
| Cmotor | 1020        |
| Rotaxi | 1310        |
| Cyclip | 1310        |

也就是说，我想为以前的公司名称不缺失的所有实例添加一个新行，然后删除以前的名称系列（我还想添加postal_code每个新行的值）。

我正在寻找该方法的描述（最好使用代码或伪代码），这将使我能够实现上述结果。

Use DataFrame.set_index http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html with DataFrame.stack http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html用于删除缺失值并重塑，然后删除第二级MultiIndex by DataFrame.reset_index http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html和最后一次转换Series至 2 列DataFrame:

df1 = (df.set_index('postal_code')
         .stack()
         .reset_index(level=1, drop=True)
         .reset_index(name='name'))
print (df1)
   postal_code    name
0         1410  Nitron
1         1410  Rotory
2         1410   Datec
3         1020  Pulset
4         1020  Cmotor
5         1310  Rotaxi
6         1310   Datec

Or use DataFrame.melt http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.melt.html with DataFrame.dropna http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html，但值的顺序不同：

df1 = (df.melt('postal_code', value_name='name')
         .drop('variable', axis=1)
         .dropna(subset=['name'])
         .reset_index( drop=True)
)
print (df1)
   postal_code    name
0         1410  Nitron
1         1020  Pulset
2         1310  Rotaxi
3         1410  Rotory
4         1310   Datec
5         1020  Cmotor
6         1410   Datec

但可以按第一列排序：

df1 = (df.melt('postal_code', value_name='name')
         .drop('variable', axis=1)
         .dropna(subset=['name'])
         .sort_values('postal_code')
         .reset_index( drop=True)

)
print (df1)
   postal_code    name
0         1020  Pulset
1         1020  Cmotor
2         1310  Rotaxi
3         1310   Datec
4         1410  Nitron
5         1410  Rotory
6         1410   Datec

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对公司名称的 DataFrame 进行非规范化 [第 1 部分] 的相关文章

如何让电脑看起来像是在打字？ [复制]

这个问题在这里已经有答案了我希望它看起来像是计算机正在尝试向用户输入信息我尝试了一些代码但是当我运行它时它只是一次打印所有内容即使我一次打印 1 个 A Random sentence for x in A time sleep
使用 futures.ProcessPoolExecutor 但不使用带有 PRAW 包装器的 futures.ThreadPoolExecutor 时出现递归最大错误

我正在使用此代码来抓取 API submissions get submissions 1 with futures ProcessPoolExecutor max workers 4 as executor or using this w
Python/pandas：从两个数据帧中查找匹配值并返回第三个值

我有两个不同的数据帧 df1 df2 具有完全不同的形状 df1 64 6 df2 564 9 df1 包含一列 df1 objectdesc 其中的值字符串也可以在 df2 df2 objdescription 的列中找到由于两个数
如何获取类变量和类型提示？

假设我定义一个类其中包含带有类型提示的类级别变量例如新的 python 3 7dataclasses class Person name str age int def parse me self what do I do here 我
buildozer android NDK 未下载 Ubuntu

我使用的是 Ubuntu 16 04 LTS 操作系统我已经在 python2 和 python3 中安装了 buildozer android sdk 已安装但 buildozer 在下载 android NDK 时显示错误请帮我解
将文件转换为 Ascii 抛出异常

后果我之前的问题 https stackoverflow com questions 31742609 how to strip the leading unciode characters from a file 31742694 nor
如何设置 QTableView 中特定单元格的线条样式？

我正在使用 QT GUI 我正在使用 QTableView 实现一个简单的十六进制编辑控件我最初的想法是使用一个有十七列的表格表的每一行都有 16 个十六进制字节然后在第十七列中显示该数据的 ASCII 表示形式理想情况下我想编辑
尝试导入 cv2(opencv-python) 包时出错

我正在尝试使用 cv2 opencv python 包访问我的网络摄像头当我尝试导入它时出现此错误 Traceback most recent call last File server py line 6 in
Python 和 Scipy：如何拟合冯·米塞斯分布？

我正在尝试拟合来自 scipy 的冯米塞斯分布 http docs scipy org doc scipy reference generated scipy stats vonmises html http docs scipy org
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql
Python 比 C++ 更快、更轻吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
R - 小鼠 - 添加一列，对具有估算值的列进行求和

我有一个缺少数据的数据库我需要估算数据我使用的是小鼠然后根据原始列创建新列使用估算数据我需要用这些新列进行统计分析具体来说我的参与者使用 7 点李克特量表填写了几份调查问卷有些人没有回答所有问题然后我需要估算值 1 对列中
将多列传递给 groupby.transform

据我所知当您使用 DataFrame 列调用 groupby transform 时该列将传递给转换数据的函数但我无法理解的是如何将多个列传递给函数 people DataFrame np random randn 5 5 colum
如何在 Jupyter 笔记本的 HTML 输出中获取垂直滚动条

当使用具有 500 行的 Excel 在 Jupyter Notebooks 中运行以下代码时 import pandas as pd pd set option display min rows 50 pd set option disp
django：自动为现有用户创建用户配置文件

我今天在我的项目中添加了一个新的 UserProfile 模型 class UserProfile models Model user models OneToOneField User def unicode self return u
减小散点图的文件大小

我目前正在尝试减小散点图的文件大小我的代码如下所示 plt scatter a1 b1 plt savefig test ps 其中 a1 b1 是大小为 400 000 左右的数组它给出的文件大小为 7 8MB 我尝试过添加 plt
将数据帧转换为多列的系列

我尝试将数据帧转换为系列但它显示以下错误我使用 pandas Series Dataframe gt 将 Dataframe 转换为系列我想要第一张图像格式的输出请尝试以下方法从提到的数据中获取 Series 对象假设data是您正
将行追加到 Pandas DataFrame 添加 0 列

我正在创建一个 Pandas DataFrame 来存储数据不幸的是我无法提前知道我将拥有的数据行数所以我的方法如下首先我声明一个空的 DataFrame df DataFrame columns col1 col2 然后我附加
根据另一个 csv 文件过滤 csv 文件中的行并将过滤后的数据保存在新文件中

大家好所以我试图根据file1过滤file2 其中file1是file2的子集但 file2 有一个描述列我需要能够分析 file1 中的数据我想做的是过滤 file2 并仅获取 file1 中的标题及其描述我尝试了这个但我不太
Python ctypes：SetWindowsHookEx 回调函数从未被调用

我正在尝试用 Python 编写一个程序该程序可以识别何时显示警报框对话框它正在处理多个监视器我希望它在任务栏图标闪烁弹出错误通知等时在辅助监视器上显示可视化效果据我所知检测这些事件的方法是使用消息挂钩如下所述 http

随机推荐

适用于 i18n 的 FuelPHP ORM 数据库架构，意见/建议

虽然这个问题可能是similar https stackoverflow com questions 929410 what are best practices for multi language database design to
CSS Sprite + 背景大小：覆盖

有没有办法使用背景尺寸封面在加载了 CSS Sprite 的图像上示例代码 class img sprite background image url images sprite img png background repeat no
linux cron 作业是否应该用“&”指定以指示在后台运行？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案在 crontab 文件中是否应该使用尾随来指定命令还是命令会在后台运行 I have 20 home me monitor check sh
Symfony2：警告：spl_object_hash() 期望参数 1 为对象，给定整数

我在实体之间有多对一的关系Project and Course因为每门课程可以有许多项目所以许多项目可能与同一门课程相关这些是我的实体 class Project ORM Id ORM Column type integer ORM G
图书馆项目是否合并清单文件？

我正在考虑创建一个核心应用程序库一个包含所有逻辑的库项目一个免费版本和一个使用该库的完整版本据我了解清单中的某些内容不会合并例如权限和活动版本代码是否合并我可以在库中放置一个版本代码来同时应用于免费和付费版本吗第二个问题是
如何在 Shiny 中更改输入后保留滚动位置

在 Shiny 中我使用带有大量项目的水平 radioGroupButtons 输入如果单击其中一项按钮标签的颜色会发生变化这实际上很好用但是如果我单击最后一项以便滚动到最右侧则滚动位置将重置因此每次单击后如果我想继续
Hibernate 将重复项插入到 @OneToMany 集合中

我有一个关于 Hibernate 3 6 7 和 JPA 2 0 的问题考虑以下实体为简洁起见省略了一些 getter 和 setter Entity public class Parent Id GeneratedValue pri
Mono mkbundle 工具无法创建二进制文件，并抱怨输出文件不可用

根据来自的建议这个线程 https stackoverflow com questions 551554 can you compile c without using the net framework在运行没有 NET 的 C 应用程序
postgresql 存储过程开始提交结束

实际上在执行 postgresql 存储过程时我很困惑我从某处学到了以下内容 create or replace procedure update dba trades language plpgsql as begin CODE BL
完成部分网格并使其不漏水

我正在从 RealSense 相机捕获点云并使用 Trimesh 库将它们转换为网格问题是我只能从中得到一个不防水的网格如何完成网格并使其防水 I tried trimesh repair broken faces mesh co
jquery切换 - 在切换功能之间切换？

大家好我喜欢 jquery 的切换功能然而目前我面临一个小问题我不知道如何以最好的方式解决它我有一个名为 searchbox 的 div 它取决于用户设置是隐藏还是可见如果我单击按钮则触发的切换功能应该是 slideDown s
创建Python包并导入模块

我正在尝试编写我的第一个 Python 包几乎所有模块都需要使用 NumPy 我应该写吗import numpy在每个模块中或者包中是否有某个地方我可以将其导入一次以便每个模块都可以使用它最好的方法是什么是的只需将其导入到需要的地
在 iTunes Connect 中提交应用程序时附加屏幕截图的顺序

我目前正在提交我的应用程序以供审核并且我已经上传了主屏幕截图但不确定如何让我的其他屏幕截图以正确的顺序显示您必须在上传之前将它们全部选择并且没有任何指示它们的顺序有人可以告诉我您是否需要按正确顺序或相反顺序选择屏幕截图吗以相反的
Cloud Dataflow 中的作业失败：启用 Dataflow API

我目前正在尝试将 Dataflow 与 Pub Sub 结合使用但收到此错误工作流程失败原因 6e74e8516c0638ca 刷新您的凭据时出现问题请检查 1 为您的项目启用Dataflow API 2 您的项目有一个机器人服务帐
在 Visual Studio 2010 项目中包含外部库

我是视觉工作室的新手似乎无法在任何地方找到这个问题的答案我正在使用 VS2010 进行 VC 项目我有另一个项目构建到 lib 文件中并设置为参考但无法弄清楚如何实际包含标头事实证明谷歌毫无用处请帮忙通常这是通过将包含文件所
qt/c++ 动态命名变量

我正在为我的一项大学作业在 Qt 中开发一个 html 编辑器并且我在某些变量的命名方面遇到了问题问题是这样的当用户决定加载他们的项目时程序会迭代该文件夹并查找其中有多少个 html 文件然后它会创建要显示的选项卡我有一个自
Symfony2 Assetic 路由和资源错误

我有一个模板例如index html php 我在其中使用 php assetic 加载器如下所示如果我对模板文件进行任何更改我会得到路线 assetic 2b431f4 不存在如果我改变 assetic use controll
C 中逐个字符读取文件

我正在用 C 语言编写 BF 解释器但在读取文件时遇到了问题我以前用过scanf为了读取第一个字符串但是你的 BF 代码中不能有空格或注释现在这就是我所拥有的 char readFile char fileName FILE fil
EditText 随选择缩放

我有一个EditText我想缩放它并滚动setScaleX setScaleY它工作正常文本正在正确的位置进行编辑但是当我尝试选择文本时它会将选择手柄绘制到位置就像文本未缩放时一样我们都知道bug https code googl
对公司名称的 DataFrame 进行非规范化 [第 1 部分]

我有一个公司名称的 Pandas DataFrame 其结构如下 import numpy as np import pandas as pd df pd DataFrame name Nitron Pulset Rotaxi postal

对公司名称的 DataFrame 进行非规范化 [第 1 部分]

对公司名称的 DataFrame 进行非规范化 [第 1 部分] 的相关文章

随机推荐

热门标签