如何关联两个 pandas 数据帧的标量值

2024-01-06

如何关联两个 pandas 数据帧，为所有值找到一个 r 值？我不想关联列或行，而是关联所有标量值。一个数据帧是 x 轴，另一个数据帧是 y 轴。

我在这里下载了结构相同的 csv 文件：https://www.gapminder.org/data/ https://www.gapminder.org/data/这些表的列为年份，行为国家/地区，每个表报告的指标都有数值。

例如，我想了解政治参与指标（gapminder 将其称为指数，但我不想将其与数据框索引混淆）与政府职能指标（按年份）的整体关联and国家。

pol_partix_idx_EIU_df = pd.read_csv('polpartix_eiu.csv',index_col=0)
govt_idx_EIU_df = pd.read_csv('gvtx_eiu.csv',index_col=0)

pol_partix_idx_EIU_df.head()

    2006    2007    2008    2009    2010    2011    2012    2013    2014    2015    2016    2017    2018
country                                                 
Afghanistan 0.222   0.222   0.222   0.250   0.278   0.278   0.278   0.278   0.389   0.389   0.278   0.278   0.444
Albania 0.444   0.444   0.444   0.444   0.444   0.500   0.500   0.500   0.500   0.556   0.556   0.556   0.556
Algeria 0.222   0.194   0.167   0.223   0.278   0.278   0.389   0.389   0.389   0.389   0.389   0.389   0.389
Angola  0.111   0.250   0.389   0.416   0.444   0.444   0.500   0.500   0.500   0.500   0.556   0.556   0.556
Argentina   0.556   0.556   0.556   0.556   0.556   0.556   0.556   0.556   0.556   0.611   0.611   0.611   0.611

您可以按列或行关联：

pol_partix_idx_EIU_df.corrwith(govt_idx_EIU_df, axis=0)

2006    0.738297

2007    0.745321

2008    0.731913

...

2018    0.718520

dtype: float64


pol_partix_idx_EIU_df.corrwith(govt_idx_EIU_df, axis=1)

country

Afghanistan    6.790123e-01

Albania       -5.664265e-01

...

Zimbabwe       4.456537e-01

Length: 164, dtype: float64

但是，我想要一个 r 值来将一个表中的每个字段与另一个表中的每个相应字段进行比较。本质上，我想要这个散点图的 r 值：

plt.scatter(pol_cultx_idx_EIU_df,govt_idx_EIU_df)
plt.xlabel('Political participation')
plt.ylabel('Government functioning')

（示例代码不会像这样对图进行着色，但会绘制相同的点。）

问题的第二部分是如何对结构不完全相同的表执行此操作。我想要比较的每个表（数据框）都有国家/地区记录和年份列，但并非所有表都具有相同的国家/地区或年份。在上面的例子中，他们确实这样做了。如何仅获取数据帧的共享行和列的单个 r 值？

我模拟了一个我认为模仿你的设置——三个数据框，其中国家/地区跨行，年份跨列。然后，我将不同的数据集连接到一个数据框中。并展示如何计算它们之间的相关性。如果此示例的某些内容与您的设置不匹配，请告诉我。

import pandas as pd

set1 = pd.DataFrame({1980:[4, 11, 0], 1981:[5, 10, 2], 1982:[0, 3, 1]},
    index=pd.Index(['USA', 'UK', 'Iran'], name='country'))
set1.columns.name = 'year'
set1

year     1980  1981  1982
country                  
USA         4     5     0
UK         11    10     3
Iran        0     2     1

set2 = pd.DataFrame({1981:[2, 1, 10], 1982:[15, 1, 12], 1983:[10, 13, 1]},
    index=pd.Index(['USA', 'UK', 'Turkey'], name='country'))
set2.columns.name = 'year'
set2

year     1981  1982  1983
country                  
USA         2    15    10
UK          1     1    13
Turkey     10    12     1

请注意，与您的设置一样，某些国家/年份不存在于不同的数据集中。

set3 = pd.DataFrame({1980:[12, 11, 4], 1982:[9, 8, 11]},
    index=pd.Index(['USA', 'UK', 'Turkey'], name='country'))
set3.columns.name = 'year'

我们可以通过堆叠将它们变成多索引系列year然后使用跨列连接这些pd.concat.

df = pd.concat([set1.stack('year'), set2.stack('year'), set3.stack('year')],
    keys=['set1', 'set2', 'set3'], names=['set'], axis=1)
df

set           set1  set2  set3
country year                  
Iran    1980   0.0   NaN   NaN
        1981   2.0   NaN   NaN
        1982   1.0   NaN   NaN
Turkey  1980   NaN   NaN   4.0
        1981   NaN  10.0   NaN
        1982   NaN  12.0  11.0
        1983   NaN   1.0   NaN
UK      1980  11.0   NaN  11.0
        1981  10.0   1.0   NaN
        1982   3.0   1.0   8.0
        1983   NaN  13.0   NaN
USA     1980   4.0   NaN  12.0
        1981   5.0   2.0   NaN
        1982   0.0  15.0   9.0
        1983   NaN  10.0   NaN

我们可以计算三个不同集合的 3x3 相关矩阵。

df.corr()

set       set1      set2      set3
set                               
set1  1.000000 -0.723632  0.509902
set2 -0.723632  1.000000  0.606891
set3  0.509902  0.606891  1.000000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何关联两个 pandas 数据帧的标量值的相关文章

numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo

随机推荐

在 Common Lisp 中，如何以可移植的方式检查对象的类型

我想定义一个专门处理具有无符号字节 8 元素的数组类型对象的方法在 sbcl 中当你 make array x element type unsigned byte 8 对象类由 SB KERNEL SIMPLE ARRAY UNSIG
C# - 通过引用传递值类型的良好且灵活的方法？

我的问题缩小为简单的解释如下我有一个类需要使用一个可能会发生变化的数字不改变它这个数字不一定来自另一个类它可以是任何东西但我只想将它交给类一次而不是不断地调用更新方法或必须创建一个包装器从那以后正如我所说这应该适用于任
StringBuilder .equals Java

class strb static public void main String string StringBuilder s1 new StringBuilder Test StringBuilder s2 new StringBuil
了解地图何时停止滚动（如 javascript API 中的“moveend”）

我需要检测 MapView 何时滚动或缩放例如 javascript API 中的 moveend 事件我想等到视图停止移动这样我就可以检测是否需要向服务器查询查看矩形内的项目如果需要则发出请求实际上我发送了一个比查看矩形稍大的
Flutter中如何向AppBar添加图标

如果我有一个像这样的 AppBar 如何像这样添加一个可点击的图标您可以通过向 AppBar 添加 IconButton 小部件来向 AppBar 添加图标 actions应用栏列表 AppBar title Text My App ac
使用 Diesel 的“belongs_to”属性时“使用未声明的类型或模块”

我大致关注迪塞尔的入门 https diesel rs guides getting started 指南尝试设置关系数据库但在编译时出现以下错误 error E0433 failed to resolve use of undeclar
避免 Yeoman 生成器中的冲突

当使用 Yeoman 搭建脚手架时我想用模板替换应用程序中的部分内容一切似乎都很顺利但我在脚手架期间遇到了这个冲突错误 this template conditional files html signup email html ap
pg_stat_activity - 如何查看正在运行的存储过程中的当前活动

我有一个 postgres 环境其中广泛使用存储过程并且这些过程很复杂并调用其他存储过程当我查询 pg stat activity 表时我得到一条显示正在调用的过程的记录但没有给出该过程中正在调用哪些 sql 语句的指示例如选
什么是 jquery noConflict，为什么我们需要它？

我见过一个包含 jQuery noConflict 方法的 jquery 代码不知道它的目的不明白为什么我们需要它我只知道这是与jquery插件有关的东西当页面上使用多个 javascript 库例如 jQuery prototy
为什么重放现有提交时 git pull --rebase 会失败？

我不明白当我 git pull rebase 远程分支时它会将我的 HEAD 恢复到其共享根然后开始重放同时发生的所有远程提交为什么这些提交有时会失败它们是干净工作区上的干净提交吗这不就是rebase的重点吗你确定不是吗yo
如何在 Go 1.18 中访问泛型结构中的共享字段？我收到错误“type t has no field or method DATE_START”[重复]

这个问题在这里已经有答案了我有两个具有一些相同字段名称和类型的结构 type JOURNAL TAG struct DATE START time Time DATE END time Time ENTRY NUMBER uint VAL
将 TimedeltaIndex 添加到日期时出现 Python 类型错误

我正在使用 Python 3 7 12 并试图理解添加pandas TimedeltaIndex反对datetime date对象特别是为什么我有时会得到一个TypeError unsupported operand type s for
存储过程中的临时表

我一直想知道 sp 中的临时表以及所有这些如何影响并发性 SP 在 MSSQL 08 服务器上制作如果我有一个 SP 我在其中创建一个临时表并再次删除它如下所示 BEGIN CREATE TABLE MyTempTable someFi
我们可以在同一应用程序的其他实例中重用 Java Swing 应用程序组件吗？

我们有一个 Java Swing 应用程序其中包含 JTable JCombobox JTextArea 等组件以及许多其他 Swing 组件现在有一个要求我们需要创建相同 Java Swing 应用程序的多个屏幕副本例如如果我的
为什么我无法将函数中定义的函子传递给另一个函数？

我发现函子可以用来模拟在函数中定义函数如下所示 using namespace std int main int argc char argv struct MYINC int operator int a return a 1 myin
RSA Premaster 秘密错误

我继承了一些代码不知道它想做什么我评论了我认为它在做什么最初的编码员几年前离开了我的组织我希望这里伟大的社区至少可以为我指出一些方向这段代码可能试图做什么以及我可以从哪里开始寻找解决方案 Java代码 Read java secu
Youtube api v3：获取今天、上周、上个月总体观看次数最多和评分最高的视频

您好我正在使用 youtube v3 api 我有这些问题 1 当我用这个php代码调用toy search list函数时 searchResponse youtube gt search gt listSearch id snippe
const 和 constexpr 最终会是同一件事吗？

我刚刚读了答案变量上的 const 与 constexpr https stackoverflow com q 13346879 1593077 我正在看这个Google Tech 谈论 C 11 14 功能 https www yout
无法安装 node-sass 因此无法安装 gulp-sass

我正在尝试设置一个可以将 sass 编译器与 gulp 一起使用的环境我的环境的一部分是通过安装 gulp sass 设置的但是我收到错误经过一番研究这显然是因为我没有node sass 当我尝试使用安装node sass时 su
如何关联两个 pandas 数据帧的标量值

如何关联两个 pandas 数据帧为所有值找到一个 r 值我不想关联列或行而是关联所有标量值一个数据帧是 x 轴另一个数据帧是 y 轴我在这里下载了结构相同的 csv 文件 https www gapminder org dat

如何关联两个 pandas 数据帧的标量值

如何关联两个 pandas 数据帧的标量值 的相关文章

随机推荐

热门标签

如何关联两个 pandas 数据帧的标量值的相关文章