Pandas Concat 遇到内存错误

2023-12-26

我正在尝试预处理数据以进行进一步分析。首先，我从 csv 文件 ( x ) 中读取数据。

然后我把它分成三个部分。最后我需要使用转换一个数组get_dummies, concat and sum的结果groupby.

import pandas as pd

RawData_v2_clear=pd.read_csv('C:\\Users\\User\\Documents\\top200users_filtered.csv', 
        sep=';', usecols = ['Username', 'Code', 'Object'], error_bad_lines=False, 
        encoding='latin-1')

dfU = RawData_v2_clear['Username']              
dfT = RawData_v2_clear['Code']   
dfO = RawData_v2_clear['Object'] 

del RawData_v2_clear, dfO                               (to free up some memory)

df_newT = pd.concat([dfU,pd.get_dummies(dfT)],axis=1)

df_new_gbyT = df_newT.groupby('Username').sum()

Raw_Data_V2_clear具有形状（约 1100 万行 x 3 列）。

Error:
  File "c:\Users\User\Desktop\Faulty_Skript.py", line XXX, in <module>
    df_newT = pd.concat([dfU,pd.get_dummies(dfT)],axis=1).sum()
  File "C:\Users\User\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\reshape\reshape.py", line 866, in get_dummies
    dtype=dtype)
  File "C:\Users\User\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\reshape\reshape.py", line 963, in _get_dummies_1d
    dummy_mat = np.eye(number_of_cols, dtype=dtype).take(codes, axis=0)
MemoryError

在另一个系统上，此操作需要一些时间，但没有完成Memory Error。也许有人有解决这个内存问题的好主意？也许追加比连接更内存友好？然而，我的附加实现在我当前的系统上也失败了。

非常感谢！

IIUC，尝试一下dtype='category' https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html参数输入read_csv方法和pandas.crosstab https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html反而：

import pandas as pd

RawData_v2_clear=pd.read_csv('C:\\Users\\User\\Documents\\top200users_filtered.csv', 
        sep=';', usecols = ['Username', 'Code', 'Object'], error_bad_lines=False, 
        encoding='latin-1', dtype='category')

df_new_gbyT = pd.crosstab(RawData_v2_clear.Username, RawData_v2_clear.Code)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas Concat 遇到内存错误的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

Postgres 中的运算符 ~<~

Originally part of this question https stackoverflow com questions 35629454 order by with diacritic in postgres but it w
理解DoFactory设计模式的UML——装饰器

我试图理解下面链接中描述装饰器模式的 UML 图 http www dofactory com Patterns PatternDecorator aspx http www dofactory com Patterns PatternDe
在根文件夹下获取 javascript 时出现 403 禁止错误

我的根文件夹下有 javascripts 文件夹到目前为止一切正常突然脚本文件夹下的所有 javascript 开始出现以下错误我今天所做的唯一更改是在网站根目录下部署了一些文件这些文件是asp文件我根本没有将任何文件部署到脚
Laravel 5. 使用 USING 运算符

我尝试了很长时间才找到它我不敢相信Laravel没有这个功能所以我可以写 select from a join b where a id b id 或者更漂亮 select from a join b using id 第一种情况对于
Pandas 与带有 WHERE 子句的 JOIN 类似

我正在 python 的 pandas 中连接两个数据框 A 和 B 目标是接收来自 B 的所有纯行 sql 模拟在 A client id B client id 上右连接 B 其中 A client id 为 null 在 panda
如何使用 runhaskell 增加堆栈大小？

我正在编写一些一次性 Haskell 脚本来解决一些问题欧拉计划 http projecteuler net问题我真的不想编译它们因为我经常需要进行大量的更改但在某些情况下我发现堆栈空间不足的文档runhaskell表示以下语法应
MySQL 5.6 中的全局查询超时

我需要在我的应用程序中在全局级别应用查询超时查询 SET SESSION max execution time 1MySQL 5 7 就是这样做的我使用的是MySQL 5 6 目前无法升级任何使用 SQL Alchemy 的解决方案也
jSpinner时间选择器模型编辑

我有 jSpinner 用于时间选择问题一用户可以编辑小时分钟和秒分隔符并可以写入额外的数字例如 123 问题2 模型始终获取当前时间我想要 00 00 00 当我在代码中编写此内容而不是 hh mm ss 时用户无法编辑这些值
Hibernate 4 -> 5 迁移：NamingStrategy 更改，找不到表

我想做的事我正在尝试从 WildFly 8 2 0 迁移到 WildFly 10 0 0 这意味着我已经并且想要从 Hibernate 4 3 迁移到 Hibernate 5 0 Setup Java 8u40 Spring 4 1
WPF ListView 关闭选择

是否可以关闭WPF的选择ListView 那么当用户单击行时该行不会突出显示 source konim5am at artax karlin mff cuni cz https artax karlin mff cuni cz 7Ekon
.NET：可执行文件应该进行强名称签名吗？私有 DLL 怎么样？

我的应用程序由三个程序集组成一个引用几个 DLL 的 EXE 这些 DLL 是我的应用程序私有的它们仅由该可执行文件使用应该给这些程序集起一个响亮的名字吗 FxCop 建议他们应该对于目前生产的所有组件 CA2210 使用强名称密钥
Visual Studio 2015 OpenMP 支持

我在 Visual Studio 2015 中获取 OpenMP 支持时遇到问题我已经将项目选项配置为使用 openmp 项目 gt 属性 gt C C gt 语言 gt OpenMP支持是代码如下非常简单的代码用于测试OpenM
仅打印字符串中的第一个字段

我有一个约会12 12 2013 14 32我想将其转换为仅12 12 2013 该字符串可以是1 1 2013 12 32 or 1 10 2013 23 41我只需要日期部分您可以使用各种 Unix 工具轻松完成此操作 cut d f
将 ul 嵌套在 ol 中

我试图创建一个有序列表其中包含两个项目每个列表下包含三个项目其中有项目符号点我的代码未通过验证因为它表示在此上下文中不允许元素 ul 作为元素 ol 的子元素但我到处都看到它说这没问题这是我的代码 ol li First nu
链接器输入文件未使用，因为链接未完成 - gcc

我是编写 makefile 的初学者我有一个类似这样的 makefile PATH1 ref CC gcc LINK gcc INCLUDES INCLUDES I PATH1 inc I PATH1 abc inc I PATH1 de
Modernizr 如何做边框半径

你能帮我解释一下吗Modernizr 如果我使用某个功能例如 border radius 我使用旧版浏览器运行它现代化者是否会自动将 css 添加到页面或者我应该编写代码来呈现控件以使其看起来像有边框一样如果第二种情况属实那么我为
如何验证历史数据？

目前我们正在使用日历实例读取日期以便使用 SparkSQL 选取最后一个月的记录现在我们需要如果在前一天添加额外的事件我们还必须能够手动插入摘要开始和结束日期以防我们需要手动重新运行之前时间段的作业例如手动重新运行表可能如下
HTML5 和 RDFa 支持

我即将向现有的 HTML5 Web 应用程序引入开放图谱协议并且我希望包含必要的 RDFa 数据而不引入任何不必要的杂项我看过HTML RDFa 1 1 http www w3 org TR rdfa in html 草稿并与Face
CSS 中内嵌的 SVG 图像

这是一个基本的 SVG 图像悬停动画有没有一种编码方法可以避免编写 SVG 代码两次 body background color 181818 a webkit transition all 3s ease moz transition
Pandas Concat 遇到内存错误

我正在尝试预处理数据以进行进一步分析首先我从 csv 文件 x 中读取数据然后我把它分成三个部分最后我需要使用转换一个数组get dummies concat and sum的结果groupby import pandas as p

Pandas Concat 遇到内存错误

Pandas Concat 遇到内存错误 的相关文章

随机推荐

热门标签

Pandas Concat 遇到内存错误的相关文章