解决dataframe格式表格的合并

2023-11-19

这几天遇到了一个关于表格合并的问题，其实问题很简单。对于两个表格df1和df2,取出df1的每一行特征和df2的每一行的特征合并，再将label合并。但是看了很多pandas关于表的合并，其并不适用到我这个问题，所以在此我想简单的总结一下关于pandas的表格合并方法和解决我自身问题的解决方法（主要）。

问题描述

df1:

f_1	f_2	label_1
1	1	1
2	2	1

df2:

f_3	label_2
3	0
4	0

目标

df3:

f_1	f_2	f_3	label_3
1	1	3	1
1	1	4	1
2	2	3	1
2	2	4	1

其实这就是一个很简单的两个for循环叠加在一起的问题，但是其本身的格式问题，合并起来较为麻烦

解决方法一：
使用concat函数来拼接两个表格

concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verigy_integrity=False)

axis参数可以确定是行拼接(取0），还是列拼接（取1)，但是列的拼接存在一个问题就是，他拼接的过程是按照行号合并的，换句话说就是相同的一行拼接成一个，反之拼接成两行
代码:

data1 = pd.read_csv('data/data_date.csv',header=None)
data2 = pd.read_csv('data/data_id.csv',header=None)
for i in range(len(data1)):
    for j in range(len(data2)):
        data3 = pd.concat([data1.iloc[[i],0:-1],data2.iloc[[j],0:-1]],axis=1)

当i=j时，合并成一行，不同时合并成两行
例如

data3 = pd.concat([data1.iloc[[1],0:-1],data2.iloc[[2],0:-1]],axis=1,join='outer')
print(data3)
data4 = pd.concat([data1.iloc[[1],0:-1],data2.iloc[[1],0:-1]],axis=1,join='outer')
print(data4)

#输出结果
     0    0    1
1    3  NaN  NaN
2  NaN    2    2

   0  0  1
1  3  1  1

所以就存在很大的局限，不同的行号就不能合成一行。

除此之外，join可以选择的是取交集还是并集，但是这个并集的前提是合并的两个表格存在相同的列,从而进行合并。

解决方法二：
使用append()函数来解决，即

data3 =data1.iloc[[0],0:-1]
data4 = data2.iloc[[1],0:-1]
data3.append(data4,ignore_index=True)
print（data3）
#输出结果
   0    1
0  3  NaN
1  2    2

这种方法其实append是series和dataframe的方法，使用它就是默认沿着列进行凭借（axis = 0，列对齐），所以并不能达到我们的要求。merge的合并方法得到与append函数得到的结果一样，再次不赘述。

解决方法三：
将表格转化成list，进行list操作

首先将dataframe转化成list

data3 = data1.values
data3 = np.array(data3).tolist() #从标签开始记数

data4 = data2.values
data4 = np.array(data4).tolist()

注意这里的list第一行是包含原先的dataframe的index的，所以从第二行开始才是数据。

data = []#存储新生成的list
for i in range(1,len(data3)):
    for j in range(1,len(data4)):
        data5 = data3[i][1:-1] +data4[j][1:-1] #合并所有的特征数据
        data5.append(data3[i][-1]+data4[j][-1])#对两个表格的label进行合并
        data.append(data5)

对两个list进行合并，label合并，使用append()函数添加到data5中完成一行，最后保存到data这个list中去成为一行数据。

test=pd.DataFrame(data=data)
test.to_csv("ConData/data.csv", encoding="utf-8")
print(data)

因为list格式的数据不能转化为csv格式数据，所以我们将list转化为dataframe格式数据，再存储起来。

完整代码：

data1 = pd.read_csv('data/data_date.csv',header=None)
data2 = pd.read_csv('data/data_id.csv',header=None)

data3 = data1.values
data3 = np.array(data3).tolist() #从标签开始记数

data4 = data2.values
data4 = np.array(data4).tolist()

data = []
for i in range(1,len(data3)):
    for j in range(1,len(data4)):
        data5 = data3[i][1:10] +data4[j][1:10]
        data5.append(data3[i][-1]+data4[j][-1])
        data.append(data5)
# print(data)
test=pd.DataFrame(data=data)
test.to_csv("ConData/data.csv", encoding="utf-8")
print(data)

这篇博客没有详细讲解merge，concat的用法，主要说的是自己遇到的实际问题的解决方法。因为concat使用这些都能在网上找到，如以下这些：
https://blog.csdn.net/zutsoft/article/details/51498026
https://blog.csdn.net/milton2017/article/details/54406482/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

解决dataframe格式表格的合并的相关文章

无法对列数据重新排序

我有数据框而不是序列如果我使用len df columns 我的数据有3586列如何重新排序数据序列 ID V1 V10 V100 V1000 V1001 V1002 V990 V991 V992 V993 V994 A 1 9 0 2
如何在pandas中将字符串转换为没有日期的日期时间

例如issue d数据框中的列是字符串 df issue d Dec 2012 我想将字符串转换为日期时间类型而不是字符串类型 2012 12 怎么做 I use datetime strptime x b Y for x in df is
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np
当 pandas 是导入时，Cx_freeze TypeError 只能使用 numpy 依赖项将列表（不是“NoneType”）连接到列表

我正在尝试使用 cxfreeze 将以下脚本转换为可执行文件 import datetime from calendar import monthrange from tia bbg import LocalTerminal as Lt i
Pandas：根据其他列值有条件地替换值

我有一个数据框 df 如下所示 environment event time 2017 04 28 13 08 22 NaN add rd 2017 04 28 08 58 40 NaN add rd 2017 05 03 07 59 35
向量化 for 循环并返回 x 天的最高价和最低价

Overview 对于数据帧的每一行我想计算 x 天的最高价和最低价 x 天的高点高于前 x 天 x 天的低点低于前 x 天 for 循环在此有更详细的解释post https stackoverflow com questions 70
如何使用 pandas 对一系列值进行编码

我有一个 pandas 数据框并且有一列age 我想将其编码为按特定范围分隔的分类值例如 15岁以下的年龄应为0 15到30之间的年龄应更改为1等等我找到了这种方法来做到这一点在经历了关于使用的巨大困惑之后 and and age X
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
在 pandas 数据框中使用 Replace 和 str.startswith() 来重命名值

我有一个名为源的列其中包含数百行文本问题是其中一些可以组合在一起而我正在努力在 Pandas 数据框中做到这一点这是我的代码 df source replace df source str startswith share n
在 Python 中使用 mca 包

我正在尝试使用MCA 套餐 https github com esafak mca blob master docs usage rst在Python中进行多重对应分析我对如何使用它有点困惑和PCA我希望fit一些数据即找到这些数据的
在 DataFrame 的切片副本上设置值[重复]

这个问题在这里已经有答案了我有一个小数据框说这个 Mass32 Mass44 12 0 576703 0 496159 13 0 576658 0 495832 14 0 576703 0 495398 15 0 576587 0 49
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
一列中唯一对的数量 - pandas

我在为 pandas 中的数据框生成统计数据时遇到了一些问题我的数据框如下所示我省略了索引 id type 1 A 2 B 3 A 1 B 3 B 2 C 4 B 4 C 各有什么重要的id有两个type分配的值如上例所示我想数一数
pd.to_datetime 更改日期格式产生错误的日期

我从 csv 文件中提取了下表时间戳 user id 成本 val12011 年 1 月 1 日 1 1 32012 年 1 月 7 日 1 19 572013 年 1 月 9 日 1 21 632011 年 1 月 2 日 2 20 8
在 pandas 条形图中设置 xticks

我在下面的第三个示例图中遇到了这种不同的行为为什么我能够正确编辑 x 轴的刻度pandas line and area 情节但不与bar 修复一般第三个示例的最佳方法是什么 import numpy as np import pan
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
用 Pandas 计算该月的最后一个星期五

我编写了这个函数来获取该月的最后一个星期四 def last thurs date date month date dt month year date dt year cal calendar monthcalendar year mon

随机推荐

VS 2022使用报错（一）

1 NET框架不兼容发生背景博主最近打开同事的源代码发现许多引用都无效了中间我尝试删除了这些引用在重新添加引用的时候都找不到这些了最后发现是解决方案里面没有配置 NET框架问题解决配置 NET框架右键项目属性在目标框架里面
python搭建ip池（多线程）

之前有讲过怎么搭建ip池但由于单线程的效率太低于是我们升级改造一下将单线程变成多线程来搭建ip池之前的方法可以参考一下 python搭建ip池如果会简单的request和提取文字就可以直接不看本文将会重点放在多线程的部分过程分
微软个人云端服务器在哪里找,云端的服务器在哪里

云端的服务器在哪里内容精选换一换智能边缘平台 Intelligent EdgeFabric 通过纳管用户的边缘节点提供将云上应用延伸到边缘的能力联动边缘和云端的数据同时在云端提供统一的边缘节点应用监控日志采集等运维能力为
python基础：面向对象一些简单案例：计算圆的面积和周长，烤羊肉串

1 计算圆的面积和周长 from math import pi class Circle def init self r self r r def zhouchang self return 2 pi self r def area sel
shell编程计算1-1000中所有3或5的倍数之和

bin bash sum 0 int 1 while int lt 1000 do if int 3 0 int 5 0 then sum sum int fi let int done echo sum bin bash sum 0 fo
Spring Security 自定义用户认证

一 PasswordEncoder 在 Configuration注解的类下注入bean import org springframework security crypto bcrypt BCryptPasswordEncoder imp
C++ 数据类型

使用编程语言进行编程时需要用到各种变量来存储各种信息变量保留的是它所存储的值的内存位置这意味着当创建一个变量时就会在内存中保留一些空间可能需要存储各种数据类型比如字符型宽字符型整型浮点型双浮点型布尔型等的信息操作
AI绘图实战（六）：制作一张庆祝五一劳动节的海报

S AI能取代设计师么 I 至少在设计行业目前AI扮演的主要角色还是超级工具要顶替除非甲方对设计效果无所畏惧预先学习安装及其问题解决参考 Windows安装Stable Diffusion WebUI及问题解决记录运行使用时问题
JUMPSERVER+ZABBIX二次开发

未完待续 1 apps assets models assets py 添加字段 zabbix group id models IntegerField null True blank True verbose name Zabbix Gr
Rust对文件的操作

一文件IO操作在类unix系统中一切都是文件所以说广义的文件操作其实包括很多 Socket 管道内存映射等等其实文件操作无论怎么变化主流仍然是对外设的访问计算机本身的组成是一系列的硬件整合在一起的单纯的只有CPU和内存
WSL 2是什么

Windows Subsystem for Linux WSL 适用于 Linux 的 Windows 子系统是微软在Windows 10上提供的一项供用户快速运行Linux命令和工具的功能相比前一代的WSL WSL 2提供更全的兼容性
【vue2】vue2中引入jquery

文章目录安装 main js中引用修改webpack配置把以下三步做好就不会出现 jquery is not define 的问题了安装 npm i jquery S main js中引用 import from jquery V
918. 环形子数组的最大和

918 环形子数组的最大和难度中等192 给定一个由整数数组 A 表示的环形数组 C 求 C 的非空子数组的最大可能和在此处环形数组意味着数组的末端将会与开头相连呈环状形式上当0 lt i lt A length 时 C i A
Docker安装RabbitMQ docker安装RabbitMQ完整详细教程

Docker安装RabbitMQ docker安装RabbitMQ完整详细教程 Docker 上安装 RabbitMQ 3 12 的步骤选择要安装的RabbitMQ 版本 1 拉取 RabbitMQ 镜像 2 创建并运行容器 3 Rabb
H5移动端便捷兼容测试方式

一准备 1 谷歌浏览器 2 H链接 3 主流设备分辨率尺寸二步骤 1 打开F12 选择手机模式 2 看顶部设备信息点击县级弹窗最底部的edit进入编辑模式 3 添加想要测试的设备设备的宽高需要按照手机的分辨率和像素值计算以i
Oracle的三种高可用集群方案

转载自 http www cnblogs com baiboy p orc2 html label1 Oracle的三种高可用集群方案 1 RAC Real Application Clusters 多个Oracle服务器组成一个共享的Ca
Java 基本数据类型之间的运算规则

博主前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住也分享一下给大家点击跳转到网站前言这里只讨论七种基本数据类型变量间的运算不包含boolean类型的 1 自动类型提升结论当容量小的数据类型的变量与容量大的数据
水果识别系统-tensorflow项目

介绍水果识别系统可识别15种水果人工智能机器学习模式识别项目编程语言Python 基于tensorflow机器学习库通过卷积神经网络对数据集进行训练经过多次迭代训练得到模型预测精度达到99 技术栈 python tensor
Spring AOP、拦截器、过滤器的区别

一区别与概念 Filter过滤器拦截web访问url地址 Interceptor拦截器拦截以 action结尾的url 拦截Action的访问 Spring AOP拦截器只能拦截Spring管理Bean的访问业务层Service
解决dataframe格式表格的合并

这几天遇到了一个关于表格合并的问题其实问题很简单对于两个表格df1和df2 取出df1的每一行特征和df2的每一行的特征合并再将label合并但是看了很多pandas关于表的合并其并不适用到我这个问题所以在此我想简单的总结一下关

解决dataframe格式表格的合并

问题描述

目标

解决dataframe格式表格的合并 的相关文章

随机推荐

热门标签

解决dataframe格式表格的合并的相关文章