读取大型制表符分隔文件分块时出现异常

2024-03-06

我有一个 350MB 制表符分隔的文本文件。如果我尝试将其读入内存，则会出现内存不足异常。所以我正在尝试一些类似的事情（即只阅读几列）：

import pandas as pd

input_file_and_path = r'C:\Christian\ModellingData\X.txt'

column_names = [
    'X1'
    # , 'X2
]
raw_data = pd.DataFrame()
for chunk in pd.read_csv(input_file_and_path, names=column_names, chunksize=1000, sep='\t'):
    raw_data = pd.concat([raw_data, chunk], ignore_index=True)

print(raw_data.head())

不幸的是，我得到了这个：

Traceback (most recent call last):
  File "pandas\_libs\parsers.pyx", line 1134, in pandas._libs.parsers.TextReader._convert_tokens
  File "pandas\_libs\parsers.pyx", line 1240, in pandas._libs.parsers.TextReader._convert_with_dtype
  File "pandas\_libs\parsers.pyx", line 1256, in pandas._libs.parsers.TextReader._string_convert
  File "pandas\_libs\parsers.pyx", line 1494, in pandas._libs.parsers._string_box_utf8
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 5: invalid start byte

在处理上述异常的过程中，又出现了一个异常：

Traceback (most recent call last):
  File "C:/xxxx/EdaDataPrepRange1.py", line 17, in <module>
    for chunk in pd.read_csv(input_file_and_path, header=None, names=column_names, chunksize=1000, sep='\t'):
  File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1007, in __next__
    return self.get_chunk()
  File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1070, in get_chunk
    return self.read(nrows=size)
  File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1036, in read
    ret = self._engine.read(nrows)
  File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1848, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 876, in pandas._libs.parsers.TextReader.read
  File "pandas\_libs\parsers.pyx", line 903, in pandas._libs.parsers.TextReader._read_low_memory
  File "pandas\_libs\parsers.pyx", line 968, in pandas._libs.parsers.TextReader._read_rows
  File "pandas\_libs\parsers.pyx", line 1094, in pandas._libs.parsers.TextReader._convert_column_data
  File "pandas\_libs\parsers.pyx", line 1141, in pandas._libs.parsers.TextReader._convert_tokens
  File "pandas\_libs\parsers.pyx", line 1240, in pandas._libs.parsers.TextReader._convert_with_dtype
  File "pandas\_libs\parsers.pyx", line 1256, in pandas._libs.parsers.TextReader._string_convert
  File "pandas\_libs\parsers.pyx", line 1494, in pandas._libs.parsers._string_box_utf8
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 5: invalid start byte

有任何想法吗。顺便说一句，我通常如何处理大文件并估算例如缺失的变量？最终，我需要阅读所有内容来确定，例如，要估算的中位数。

use encoding="utf-8"使用时pd.read_csv

这里他们就使用了这种编码。看看这是否有效。open(file path, encoding='windows-1252'):

参考：“utf-8”编解码器无法解码位置 4276 中的字节 0xa0：无效的起始字节 https://stackoverflow.com/questions/48067514/utf-8-codec-cant-decode-byte-0xa0-in-position-4276-invalid-start-byte

工作方案

使用编码encoding="ISO-8859-1"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

读取大型制表符分隔文件分块时出现异常的相关文章

Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v
numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
检查字符串是否以 XXXX 开头

我想知道如何在Python中检查字符串是否以 hello 开头在 Bash 中我通常这样做 if string hello then do something here fi 我如何在Python中实现同样的效果 aString hell
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
如何在 django 表单中设置自定义 HTML 属性？

我有一个 Django 表单它是页面的一部分假设我有一个字段 search input forms CharField u Search word required False 我只能通过模板访问它 form search input
使用 selenium 在 python 中切换到弹出窗口

如何在下面的 selenium 程序中切换到弹出窗口我已经查找了所有可能的解决方案但无法解决它们请帮忙 from selenium import webdriver from splinter import Browser from
python请求：重试直到收到有效响应

我想知道是否存在重试请求一定次数的常见模式可能由于服务器错误或网络不良而失败我想出了这个并且我愿意在那里找到更好的实现 cnt 0 while cnt lt 3 try response requests get uri if res
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
如何读取 sql 查询到 pandas dataframe / python / django

我在下面使用这个views py获取应用程序 from django db import connection def test request cursor connection cursor sql SELECT x n from ta
Python：选择多个已安装模块版本之一

在我的系统上我多次安装了多个模块举个例子 numpy 1 6 1安装在标准路径中 usr lib python2 7 dist packages 我有一个更新版本numpy 1 8 0安装于 local python lib pytho
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
Python：如何访问 Lotus Notes 8.5 Inbox 来阅读电子邮件

我想用 python 创建一个脚本从 Lotus Notes 8 5 读取电子邮件然后在 jira 中为每封电子邮件创建一个问题但当我尝试从 Lotus 读取邮件时它会返回此错误 Traceback most recent call
如果我更改当前工作目录，为什么 __file__ 会变成无效路径？

执行中test py from tmp import os print os path abspath file os chdir var print os path abspath file output tmp test py var
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
vtkPythonAlgorithm 控制管道执行

我正在尝试用 python 编写一个 vtk 过滤器ProjectDepthImage进行投影不是问题它控制 vtk 管道的执行基本上我对 UserEvent 有一个回调当用户在渲染窗口处于活动状态时按下 u 键时会触发该回调这将
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore

随机推荐

驱动器号和冒号后没有斜杠的 Windows 路径 - 它指向什么？

我输错了路径而不是c foo txt wrote c foo txt 我预计它要么会失败要么会解决c foo txt 但它似乎解决了foo txt在当前用户的主文件夹中 Powershell 返回 PS C gt System IO Pa
如何从我的本地计算机和其他区域的 EC2 实例访问我的 AWS MSK 托管 kafka 队列

我正在 AWS MSK 上设置托管 kafka 队列从本地计算机连接时我似乎无法使安全性发挥作用并且无法确定是否可以使用从一个区域到另一个区域的安全组我已经浏览了主要文档中有关设置安全组的信息here https docs aws
从 Travis 上的 Protractor 在 Sauce Labs 上运行 e2e 测试

所以我有我的开源项目 https github com ahmednuaman radian https github com ahmednuaman radian 并且我有一些可以在本地运行良好的 e2e 测试量角器 https gith
检查是否安装了 Windows 映像组件（wic 注册表）

如何检查64位XP机器上是否安装了Windows映像组件检查是否存在C Windows System32 WindowsCodecs dll
连接 3 个字符串并返回指向新字符串 C 的指针

我想知道是否有人可以帮助我我正在尝试连接 3 个字符串并返回指向新字符串的指针我似乎不知道如何使用strncat代替strcat and strncpy代替strcpy 我只学习 C 所以任何帮助将不胜感激 char concatena
android Google Play 警告：SSL 错误处理程序漏洞

我在我的应用程序中使用 gorbin ASNE SDK 我最近收到一封来自 Google 的电子邮件主题如下 Google Play 警告 SSL 错误处理程序漏洞在这封电子邮件中 Google 解释说我的应用程序有一个 WebView
在全屏模式下调整框架组件的大小

我希望我的框架组件始终在屏幕中进行调整无论屏幕尺寸如何我在笔记本电脑小屏幕中绘制框架当我在另一台具有大屏幕的机器 jar 文件中运行应用程序时框架组件不会重新调整大小当我在任何机器上将框架置于全屏模式时如何使框架调整其组件
Zend Framework 中处理会话的最佳方法

因此我在 Zend 框架中启动并希望实现站点范围的用户会话我可以从应用程序中的所有模块控制器轻松访问它我想我应该在库中创建一个新的命名空间并扩展控制器例如 class MYCUSTOMLIB Controller Acti
MySQL 查询月份年份

我有一个包含以下字段的表 id int name varchar dob datetime 现在我需要一个可以同时匹配月份和年份的查询我现在使用的是 select from users where month dob 12 and yea
Scala Spark Encoders.product[X]（其中 X 是案例类）不断给出“No TypeTag available for X”错误

我正在 Scala 工作表中使用 Intellij Idea 我想为 scala 案例类创建一个编码器从互联网上的各种帖子中我找到了使用 Encoders product 的建议但它从来没有对我有用下面的代码 import org
如何将事件绑定到 Canvas 项目？

如果我使用画布来显示数据并且希望用户能够单击画布上的各个项目以获得更多信息或以某种方式与之交互那么最好的方法是什么在线搜索我可以找到有关如何将事件绑定到标签的信息但这似乎比我想要的更间接我不想用标签对项目进行分组而是当用户单击画
如何在 XSLT 转换中为元素的默认数据类型添加属性“type”

例如输入 XML
从 Python 生成图形的最简单方法？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在使用 Python 处理填充有我想要运行计算的数据的 CSV 文件然后绘制图表我正在寻找一个可
在 C++ 中传递对象所有权

表明一个对象想要获得另一个对象的所有权的最佳方式是什么到目前为止我一直在使用std auto ptr在公共接口中因此客户端知道该接口想要获取所传递对象的所有权然而最新的 GCC 告诉我auto ptr已弃用所以我想知道推荐什么
如何使用 VisPy 库实时绘图？

我编写了一个脚本来模拟流行病的演变使用图表和散点图我尝试了几个库来实时显示结果 8 个国家 x 500 个粒子 Matplotlib 不够快 PyQtGraph 更好但仍然不够快 OpenGL 很好但我没有找到如何在 2D 中有效地使
如何在屏幕旋转时保持recyclerView的滚动位置

我正在使用 gridlayoutManager 填充 recyclerView 现在我想保存屏幕旋转的滚动位置我尝试使用 onSaveInstanceState 和 onRestoreInstanceState 来执行此操作如本文所示
WPF DataGrid - 如何在按下 Tab 键后将键盘焦点移动到新添加的行

如果我们在最后一行的最后一列上按 Tab 键 WPF DataGrid 将添加一个新行但添加新行后焦点将移至网格的顶行我们如何确保焦点移动到新行的第一列你可以尝试类似的东西 this SelectRowCell this Items
php“curl”不起作用[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我正在尝试
从 Excel 工作簿 VSTO 调用 Excel 加载项函数

我想在 Excel Add In 2007 解决方案中创建一个方法可以从我的 Excel Workbook 2007 解决方案中调用该方法我解释一下我想从Excel工作簿2007解决方案的代码隐藏文件中调用Excel加载项的方法我不
读取大型制表符分隔文件分块时出现异常

我有一个 350MB 制表符分隔的文本文件如果我尝试将其读入内存则会出现内存不足异常所以我正在尝试一些类似的事情即只阅读几列 import pandas as pd input file and path r C Christian

读取大型制表符分隔文件分块时出现异常

读取大型制表符分隔文件分块时出现异常 的相关文章

随机推荐

热门标签

读取大型制表符分隔文件分块时出现异常的相关文章