合并特定列上的两个大型数据框并显示进度条

2024-03-11

我有两个大型数据集,一个 2.6 GB,另一个 1GB。我已经设法将它们作为数据帧读取。

接下来,我想要创建一个新的 DataFrame,在其中我想要将两个数据集的唯一 ID 进行匹配,并丢弃两个数据集之间没有匹配的 ID 的行。

我尝试过合并少量行,我认为它有效,但我想合并整个事情,并且还想显示一个进度条。我正在使用 Jupyter Notebook 和 Python 3。

Matrikkel2019 是两个数据集中相同的唯一 ID,我想保留两个数据集中的列,但只保留具有相同 matrikkel2019 ID 的值

Code

from tqdm import tqdm_notebook

tqdm_notebook().pandas() 

merge = energydata.merge(dwellingData, left_on = "matrikkel2019", right_on="matrikkel2019").progress_apply()

我尝试过使用lambda x: x**2在 - 的里面progress_apply函数,但我收到错误:TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int' and Invalid arguments error

主要问题是合并操作花费的时间太长,而我的 8Gb RAM 电脑运行缓慢,所以我不知道需要多长时间或是否会完成。


tqdm支持 pandas 合并操作的进度条。

取自这个问题的代码,here https://stackoverflow.com/questions/56256861/is-it-possible-to-use-tqdm-for-pandas-merge-operation

import pandas as pd
from tqdm import tqdm

df1 = pd.DataFrame({'lkey': 1000*['a', 'b', 'c', 'd'],'lvalue': np.random.randint(0,int(1e8),4000)})
df2 = pd.DataFrame({'rkey': 1000*['a', 'b', 'c', 'd'],'rvalue': np.random.randint(0, int(1e8),4000)})

#this is how you activate the pandas features in tqdm
tqdm.pandas()
#call the progress_apply feature with a dummy lambda 
df1.merge(df2, left_on='lkey', right_on='rkey').progress_apply(lambda x: x)

对于您的代码以及导入,它应该是:

tqdm.pandas()
merge = energydata.merge(dwellingData, left_on = "matrikkel2019", right_on="matrikkel2019").progress_apply(lambda x: x)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

合并特定列上的两个大型数据框并显示进度条 的相关文章

随机推荐

  • PHPUnit生成的测试骨架路径

    是否可以通过 sculpture test 命令告诉 phpunit 将生成的测试框架文件放在哪里 甚至可以告诉 phpunit 重复目录结构吗 以免说我有用于测试的文件lib model SomeClass php我希望 phpstorm
  • 立即在 Android 上显示自动完成功能

    Android 自动完成功能仅在两个字母后启动 如何才能在刚刚选择字段时显示列表 要使自动完成功能在焦点上显示 请添加焦点侦听器并在字段获得焦点时显示下拉菜单 如下所示 editText setOnFocusChangeListener n
  • 使用 HtmlService 在 google apps 脚本中保存状态的位置

    我有以下发布的网络应用程序code gs var queryString function doGet e queryString e queryString logger only works if the return value is
  • 使用 NancyFX 进行模型验证

    我真的很习惯 ASP NET MVC 方法 用相应的属性注释模型 MVC 验证它并更新 ModelState Errors ModelState 在视图上可用 因此可以向用户显示错误 我还没有找到相关信息wiki https github
  • msxml3.dll错误'80072ee2'操作超时

    我有一个经典的 ASP 页面 它读取外部 rss 提要 xml 文档 然后将其显示在网页上 在我的网站转移到新服务器之前 这一切都工作正常 我认为现在是 Windows 2008 我的脚本现在超时了 我认为问题实际上并不是因为我增加了超时值
  • 如何从字符串中删除变音符号(变音符号)?

    如何转换字符串 例如P li lu ou k k p l belsk dy into Prilis zlutoucky kun upel dabelske ody 源字符串采用 Unicode 因此原则上应该可以使用规范化 分解来分隔元音变
  • 如何查看 SQL 2008 锁和阻塞表

    在我的应用程序的 ASP NET 执行期间 SQL 2008 Express 似乎持有一些锁定 我得到 Timeout expired The timeout period elapsed prior to completion of 操作
  • 为什么 Java 类型擦除没有阻止此代码编译

    我有一个类定义了以下两种方法 public Map
  • 如何让 scalac 告诉我是否有未使用的变量?

    我刚刚注意到代码中的一个错误 我创建了一个新变量 但后来未能实际使用它 我以为 scalac 会告诉我我的新变量未被使用 但情况似乎并非如此 在进行少量谷歌搜索 手册页后 我找不到任何有关启用警告的信息 我该怎么做才能启用此类警告 这个东西
  • 使用Javascript读取外部文件

    我有一个可变长度名称的外部文本文件配置文件 txt包含以下格式的信息 Jason Red Tyrannosaurus Zack Black Mastodon Billy Blue Triceratops Trini Yellow Griff
  • 如何手动刷新升压日志?

    我正在使用 boost 1 54 0 中的 Boost Log 看看它是否适合我的应用程序 一般来说 我的缓冲没有问题 所以我不想打开 auto flush 或任何东西 但我注意到在我调用之前记录的消息fork 是重复的 我想知道是否是因为
  • 如何使用 Pyomo 制作指标函数?

    我正在寻找在 Pyomo 中创建一个简单的指示变量 假设我有一个变量 x 如果 x gt 0 则该指示函数将取值 1 否则取 0 我尝试这样做的方法如下 model ConcreteModel model A Set initialize
  • 自定义智能感知自动完成

    是否可以添加自定义智能感知来自动完成我的字符串 Example 我输入 艾达 它将弹出智能感知 gt Adapt gt Adapter 我正在使用一种新语言 需要向 Visual Studio 2015 的库添加更多功能 使用我的关键字数据
  • 免费升级为付费 Android 应用,不留两个图标

    我有一个Android应用程序 有免费和付费版本 其中免费版本有时间限制 之后它将用户重定向到市场购买付费版本 这两个版本具有不同的包名称 并作为单独的应用程序提交到市场 但是 当用户购买付费版本时 这不会取代免费版本 他们会同时安装两个版
  • 使用 Glide 预加载多个图像

    我们正在努力预加载图像到缓存内存中以便稍后加载它们 图像位于资产文件夹申请的 我们尝试过的 Glide with this load pictureUri diskCacheStrategy DiskCacheStrategy ALL Gl
  • 获取 Spring Security 中所有已登录的用户

    我想获取当前登录我的应用程序的所有用户的列表 我知道 我应该注射SessionRegistry在我的代码中调用getAllPrincipals 方法 不幸的是 我总是得到空列表 看起来SessionRegistry没有填充 我不知道如何制作
  • 那么 ASP.NET MVC 3 中是否内置了 [Email] 属性?

    The Email 属性将像在未来一样内置到 ASP NET MVC 3 中吗 那么现在可以用还是不能用呢 我想这是一个相当愚蠢的问题 但我花了一些时间谷歌搜索并没有找到任何正常的答案 电子邮件正则表达式 a z d u00A0 uD7FF
  • Fancybox 导航箭头未显示

    我是 jquery 的新手 所有动画 例如过渡和速度 都工作正常 但是 showNavArrows 和 循环 不起作用 这是代码 document ready function a single image fancybox transit
  • HTTP 状态 500 - java.lang.NoClassDefFoundError:无法初始化类 org.apache.jasper.el.E​​LContextImpl [重复]

    这个问题在这里已经有答案了 当我尝试在 myeclipse 上浏览 localhost 8080 时 出现以下错误 type Exception report message java lang NoClassDefFoundError C
  • 合并特定列上的两个大型数据框并显示进度条

    我有两个大型数据集 一个 2 6 GB 另一个 1GB 我已经设法将它们作为数据帧读取 接下来 我想要创建一个新的 DataFrame 在其中我想要将两个数据集的唯一 ID 进行匹配 并丢弃两个数据集之间没有匹配的 ID 的行 我尝试过合并