读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧

2024-01-01

我有一个 excel 文件示例data1.xlsx from ，其中有一个Sheet1如下：

现在我想阅读它openpyxl or pandas，然后将它们转换为新的df1 and df2，我最终将它们保存为price and quantity sheet:

价格表：

and 数量表

我使用过的代码：

df = pd.read_excel('./data1.xlsx', sheet_name = 'Sheet1')
df_list = np.split(df, df[df.isnull().all(1)].index) 

for df in df_list:
    print(df, '\n')

Out:

         bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
0      year      2018.0      2019.0      2020.0        sum
1     price        12.0         4.0         5.0         21
2  quantity         5.0         5.0         3.0         13 

         bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
3       NaN         NaN         NaN         NaN        NaN
4        sh         NaN         NaN         NaN        NaN
5      year      2018.0      2019.0      2020.0        sum
6     price         5.0         6.0         7.0         18
7  quantity         7.0         5.0         4.0         16 

    bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
8  NaN         NaN         NaN         NaN        NaN 

          bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
9        NaN         NaN         NaN         NaN        NaN
10        gz         NaN         NaN         NaN        NaN
11      year      2018.0      2019.0      2020.0        sum
12     price         2.0         3.0         1.0          6
13  quantity         6.0         9.0         3.0         18 

     bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
14  NaN         NaN         NaN         NaN        NaN 

          bj  Unnamed: 1  Unnamed: 2  Unnamed: 3 Unnamed: 4
15       NaN         NaN         NaN         NaN        NaN
16        sz         NaN         NaN         NaN        NaN
17      year      2018.0      2019.0      2020.0        sum
18     price         8.0         2.0         3.0         13
19  quantity         5.0         4.0         3.0         12

我怎样才能在Python中做到这一点？多谢。

Use:

#add header=None for default columns names
df = pd.read_excel('./data1.xlsx', sheet_name = 'Sheet1', header=None)

#convert columns by second row
df.columns = df.iloc[1].rename(None)

#create new column `city` by forward filling non missing values by second column
df.insert(0, 'city', df.iloc[:, 0].mask(df.iloc[:, 1].notna()).ffill())
#convert floats to integers 
df.columns = [int(x) if isinstance(x, float) else x for x in df.columns]
#convert column year to index
df = df.set_index('year')

print (df)
         city    2018    2019    2020  sum
year                                      
bj         bj     NaN     NaN     NaN  NaN
year       bj  2018.0  2019.0  2020.0  sum
price      bj    12.0     4.0     5.0   21
quantity   bj     5.0     5.0     3.0   13
NaN        bj     NaN     NaN     NaN  NaN
sh         sh     NaN     NaN     NaN  NaN
year       sh  2018.0  2019.0  2020.0  sum
price      sh     5.0     6.0     7.0   18
quantity   sh     7.0     5.0     4.0   16
NaN        sh     NaN     NaN     NaN  NaN
NaN        sh     NaN     NaN     NaN  NaN
gz         gz     NaN     NaN     NaN  NaN
year       gz  2018.0  2019.0  2020.0  sum
price      gz     2.0     3.0     1.0    6
quantity   gz     6.0     9.0     3.0   18
NaN        gz     NaN     NaN     NaN  NaN
NaN        gz     NaN     NaN     NaN  NaN
sz         sz     NaN     NaN     NaN  NaN
year       sz  2018.0  2019.0  2020.0  sum
price      sz     8.0     2.0     3.0   13
quantity   sz     5.0     4.0     3.0   12

df1 = df.loc['price'].reset_index(drop=True)
print (df1)
  city  2018  2019  2020 sum
0   bj  12.0   4.0   5.0  21
1   sh   5.0   6.0   7.0  18
2   gz   2.0   3.0   1.0   6
3   sz   8.0   2.0   3.0  13

df2 = df.loc['quantity'].reset_index(drop=True)
print (df2)
  city  2018  2019  2020 sum
0   bj   5.0   5.0   3.0  13
1   sh   7.0   5.0   4.0  16
2   gz   6.0   9.0   3.0  18
3   sz   5.0   4.0   3.0  12

最后写入DataFrames 到现有文件可以通过mode='a'范围，link https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html:

with pd.ExcelWriter('data1.xlsx', mode='a') as writer:  
    df1.to_excel(writer, sheet_name='price')
    df2.to_excel(writer, sheet_name='quantity')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

DataFrame

openpyxl

读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧的相关文章

Selenium driver.page_source() 仅提取部分 HTML DOM

我有一个网页当我右键单击它然后查看页面源时我得到 SECTION A 但是当我点击它然后检查时我得到了更长的输出我尝试使用 JS 获取页面源但同样的问题我得到了输出SECTION A 我怎样才能解决这个问题注意我正在寻找通用
冻结/挂起 tkinter GUI 等待线程完成

按下按钮后我的界面冻结了我正在使用线程但我不确定为什么仍然挂起任何帮助将不胜感激提前致谢 class magic def init self self mainQueue queue Queue def addItem self q
ValueError：无法将 DatetimeIndex 转换为 dtype datetime64[us]

我正在尝试为 S P 500 ETF 创建一个包含 30 分钟数据的 PostgreSQL 表 spy30new 用于测试新插入的数据来自具有 15 分钟数据的多个股票的表全部 15 个 all15 在 dt 时间戳和 instr 股
如何修复下载 spacy 模型的“无效语法”

我尝试在 Jupyter 笔记本上下载 spacy 模型但它打印出无效语法 python m spacy download en core web sm 有什么解决方案可以帮助我成功下载模型吗为了将来帮助某人对我来说这个问题是因为
如何在pandas中分组后从每组中选择前n行？ [复制]

这个问题在这里已经有答案了我有一个具有以下形状的 pandas 数据框 open year open month type col1 col2 我想找到每个年月中的顶级类型所以我首先找到每个年月中每种类型的计数 freq d
测试从常规函数调用 python 协程（async def）

假设我有一些异步协程它可以获取一些数据并返回它像这样 async def fetch data args result await some io return result 基本上这个协程是从协程链中调用的初始协程是通过创建任务来
如何处理 ValueError：索引包含使用 df.pivot 或 pd.pivot_table 的重复条目？

我有一张显示累计小时数的表格 dataframe values 不同的专家 ID 已完成一系列四项任务 Task1 Tas2 Task3 Tas4 像这样 Input ID Task1 Task2 Task3 Task4 0 10 1 3
如何提高大规模数据帧上 lambda 函数的性能

我有一个df超过数亿行 latitude longitude time VAL 0 39 20000076293945312500 140 80000305175781250000 1972 01 19 13 00 00 1 2000000
返回表情符号名称而不是表情符号

我有这个 1 不带单引号在 Python 3 中即 one 有没有一种方法可以获取表情符号如上面的并打印相应的表情符号在本例中为 one 名称我从 Discord py 反应对象中获取表情符号就您而言该表情符号是一个两个字符
使用 Pandas 读取 CSV 时如何删除 .0

我有一个 CSV 文件正在读入 pandas 数据帧所有数字都没有任何小数位但是当我将其读入 dframe 时它会在带小数的数字中添加尾随零 1205 变为 1205 0 如何在 pd read csv 期间去掉 0 我知道我可以在
数据框中按行相关

我正在尝试计算大型数据帧的所有行之间的相关性到目前为止已经提出了一个有效的简单 for 循环例如 name lt c a b c d col1 lt c 43 78 43 84 37 92 31 72 col2 lt c 43 80 4
python 3中pickle和_pickle有什么区别？

我是 python 新手想要实现fast对象序列化我尝试使用json 但是太慢了也尝试使用marshall模块但是marshall序列化的对象的大小比pickle大6 7倍所以我决定在我的项目中使用pickle 我读到了有关 cP
google-oauthlib-tool 不询问授权码，并且在 rpi-4B 上没有“--headless”选项

我正在尝试嵌入谷歌助手SDK https developers google com assistant sdk在我的树莓派上通过以下方式本指南由 Google 提供 https developers google com assistan
类似 zip() 的内置函数用 None 值从左侧填充不等长度

是否有一个内置函数其工作方式类似于 zip 但填充结果以便结果列表的长度是最长输入的长度并填充列表从左边例如None 已经有一个answer https stackoverflow com a 1277311 2648551 using
ImportError：没有名为 Transport 的模块（Paramiko，Python 3.2.5）

我安装了 PyCrypto 和 Paramiko 在各自的目录中 python3 setup py install 并且两者都安装成功然而当我尝试 import paramiko 在 3 2 5 解释器中我收到此错误 Tracebac
错误：process_executor.py:702: ... 当一些作业被分配给执行器时，工作人员停止了。这可能是由于工作超时太短造成的

根据主题中的错误修复方法是什么环境 Python 3 9 或 3 10 Windows 10 x64 使用时出现错误joblib https joblib readthedocs io en latest 对于并行处理 result c
如何使用 Python 3 绕过 HTTP Error 403: Forbidden with urllib.request

您好不是每次都这样但有时在尝试访问 LSE 代码时我会收到每一个烦人的 HTTP 错误 403 禁止消息任何人都知道我如何仅使用标准 python 模块来克服这个问题遗憾的是没有漂亮的汤 import urllib request
尝试在 Anaconda 上安装 pygame 时，Python 3.x 降级为 Python 2.7

我正在使用 Anaconda Python 3 我正在尝试安装 pyOpenGL Vpython 和 pygame 安装 pyOpenGL 和 Vpython 就可以使用conda install 当我尝试安装 Pygame 时使用con
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157

随机推荐

无法获取 FirebaseDatabase 实例。在 FirebaseApp 中指定 DatabaseURL

FirebaseApp 调用时抛出异常FirebaseDatabase getInstance 错误信息无法获取 FirebaseDatabase 实例在其中指定 DatabaseURL FirebaseApp 或来自您的 getIns
Ember-Data .find() 与 .all() - 如何控制缓存？

有人告诉我 https stackoverflow com questions 16515781 ember data makes requests whenever it visits a route 16522572为了不总是发出请求
如何使用 XlsxWriter 阻止 Excel 以科学记数法显示数字？

我使用 pandas 将数据导出到 XLSX 而 pandas 又使用XlsxWriter 我已经尝试过我找到的格式选项例如float format 尽管事实上根据来源这似乎是错误的答案但我找不到任何阻止 Excel 以科学计数法解
使用 Linq 进行条件连接

有没有办法逐步有条件地将联接添加到查询中我正在为客户创建一个自定义报告工具并向客户提供他她可以选择查询的对象列表查询中始终会使用一个基础对象 FWOBid 因此例如如果客户选择对象 FWOBid FWOItem 和 FWOSe
JFreeChart：如何在 OHLC 图表上绘制移动平均线

我试图在 OHLC 图表上叠加移动平均线但它似乎不起作用我提供了代码的两个关键功能 private static OHLCDataset createPriceDataset String filename OHLCSeries s1
为什么 JavaScript 中 true 不与双等号“==”匹配“true”？ [复制]

这个问题在这里已经有答案了这一小部分代码花了很长时间才被注意到我想如果我做到以下几点就可以了 if true true alert Does not happen 但它没有通过 if 条件我以为双等于匹配值而不是类型因为匹配类型是
如何以编程方式确定我的 Android 应用程序正在使用哪种 XML 布局？

如何以编程方式确定我的应用程序当前正在使用哪种布局布局正常布局大等我看到 getWindowManager getDefaultDisplay getMetrics metrics 调用但它似乎只处理屏幕密度而不必处理应用程序正在
有没有什么解决方案可以用 C# 开发 Blackberry 应用程序，例如 Mono for Android 或 Monotouch？

我有一个应用程序已使用 Xamarin 解决方案 Mono for Android 和 MonoTouch 移植到 Android 和 iOS 这样做是因为通过这种方式我可以使用相同的加密库将所有这些平台与 C Web 服务连接起来无需
iOS 6 与 7 外观构建设置

是否需要将应用程序的部署目标设置为 iOS 7 才能在 iOS 7 设备上获得 iOS 7 外观在测试版期间就是这样而且由于我的测试现在看起来仍然如此我目前正在使用 iOS 7 SDK 进行构建部署目标是如果我使用 iOS 7
使用 Moq 部分模拟类

我只想嘲笑GetValue以下类的方法使用 Moq public class MyClass public virtual void MyMethod int value GetValue Console WriteLine ORIGIN
Flutter 性能 - SetState 与 StreamBuilder

在 Flutter 中哪种方式比高负载处理性能更好假设我们正在监听一个每秒发出大约 1000 条消息的流哪种方式会有更好的性能 1 使用 setState 类似 stream listen msg gt setState gt msg
未找到 System.ComponentModel.DataAnnotations.Schema

我在 Visual Studio 2012 中遇到涉及 System ComponentModel DataAnnotations Schema 命名空间的问题它告诉我ForeignKeyAttribute无法解析过去的解决方案是添加下
在聚合的“std::initializer_list”初始化中省略嵌套大括号是否合法？

考虑以下代码 run on gcc godbolt org https godbolt org g g g h codeEditor i filename 271 27 fontScale 14 fontUsePx 270 27 j 1 l
iOS：创建一侧阴影

我有下面模仿 Facebook 的菜单样式布局我想在左侧有一个阴影如下所示但是我使用图层阴影的代码使应用程序变得缓慢我一直无法找到一个好的替代解决方案有没有人有其他方法可以创建不影响应用程序性能的阴影 self navContro
jQuery/Javascript - 如何在继续执行函数之前等待操作的 DOM 更新

我想做的是在执行 CPU 密集型脚本运行需要 3 12 秒没有 AJAX 之前更新一个简单的 div 来表示正在处理然后更新该 div 来表示完成完成后我看到的是 div 永远不会更新正在处理如果我在该命令之后立即设置断点
修改表达式，由 Antlr 生成？

我想用 Antlr4 读取表达式并对它们执行一些修改例如如果语法是算术我会修改表达式表示 2 3 1 with 2 4 然后与 8 这就是计算或简化为了执行此操作我将创建一些树结构第一个想法是使用由 Antlr 创建的完
创建默认显示图像选项时出现 NoClassDefFoundError

我在 Application onCreate 中收到 NoClassDefFoundError 异常 DisplayImageOptions defaultOptions new DisplayImageOptions Builder c
在 14.1 和 14.2 中第二次以调试模式运行应用程序时，模拟器会出现空白[关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我刚刚将我的 Macbook Pro M2 升级到 MacOS Ventura 13 0 并将 Xcode 升级到版本 14 1 14
使用 Swift 如何将字符串转换为数字

我从网络服务中获取值该服务以字符串格式返回价格将其放入字典中因此我获取的价格为 1 5000 例如这显然是 1 50 的货币然而在我的一生中我无法让任何东西在 Swift 中工作来正确格式化它在大多数其他语言中您可以在几秒
读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧

我有一个 excel 文件示例data1 xlsx from 其中有一个Sheet1如下现在我想阅读它openpyxl or pandas 然后将它们转换为新的df1 and df2 我最终将它们保存为price and quantity

读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧

读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧 的相关文章

随机推荐

热门标签

读取由 nan 行分割的数据帧，并将它们重新整形为 Python 中的多个数据帧的相关文章