在 pandas 中读取 csv 文件时出错[CParserError: 标记数据时出错。 C 错误：捕获缓冲区溢出 - 可能存在格式错误的输入文件。]

2024-03-25

所以我尝试从一个文件夹中读取所有 csv 文件，然后将它们连接起来创建一个大 csv（所有文件的结构相同），保存并再次读取。所有这一切都是使用 Pandas 完成的。读取时出现错误。我附上代码和下面的错误。

import pandas as pd
import numpy as np
import glob

path =r'somePath' # use your path
allFiles = glob.glob(path + "/*.csv")
frame = pd.DataFrame()
list_ = []
for file_ in allFiles:
    df = pd.read_csv(file_,index_col=None, header=0)
    list_.append(df)
store = pd.concat(list_)
store.to_csv("C:\work\DATA\Raw_data\\store.csv", sep=',', index= False)
store1 = pd.read_csv("C:\work\DATA\Raw_data\\store.csv", sep=',')

Error:-

CParserError                              Traceback (most recent call last)
<ipython-input-48-2983d97ccca6> in <module>()
----> 1 store1 = pd.read_csv("C:\work\DATA\Raw_data\\store.csv", sep=',')

C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in parser_f(filepath_or_buffer, sep, dialect, compression, doublequote, escapechar, quotechar, quoting, skipinitialspace, lineterminator, header, index_col, names, prefix, skiprows, skipfooter, skip_footer, na_values, na_fvalues, true_values, false_values, delimiter, converters, dtype, usecols, engine, delim_whitespace, as_recarray, na_filter, compact_ints, use_unsigned, low_memory, buffer_lines, warn_bad_lines, error_bad_lines, keep_default_na, thousands, comment, decimal, parse_dates, keep_date_col, dayfirst, date_parser, memory_map, float_precision, nrows, iterator, chunksize, verbose, encoding, squeeze, mangle_dupe_cols, tupleize_cols, infer_datetime_format, skip_blank_lines)
    472                     skip_blank_lines=skip_blank_lines)
    473 
--> 474         return _read(filepath_or_buffer, kwds)
    475 
    476     parser_f.__name__ = name

C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in _read(filepath_or_buffer, kwds)
    258         return parser
    259 
--> 260     return parser.read()
    261 
    262 _parser_defaults = {

C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in read(self, nrows)
    719                 raise ValueError('skip_footer not supported for iteration')
    720 
--> 721         ret = self._engine.read(nrows)
    722 
    723         if self.options.get('as_recarray'):

C:\Users\armsharm\AppData\Local\Continuum\Anaconda\lib\site-packages\pandas\io\parsers.pyc in read(self, nrows)
   1168 
   1169         try:
-> 1170             data = self._reader.read(nrows)
   1171         except StopIteration:
   1172             if nrows is None:

pandas\parser.pyx in pandas.parser.TextReader.read (pandas\parser.c:7544)()

pandas\parser.pyx in pandas.parser.TextReader._read_low_memory (pandas\parser.c:7784)()

pandas\parser.pyx in pandas.parser.TextReader._read_rows (pandas\parser.c:8401)()

pandas\parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:8275)()

pandas\parser.pyx in pandas.parser.raise_parser_error (pandas\parser.c:20691)()

CParserError: Error tokenizing data. C error: Buffer overflow caught - possible malformed input file.

我也尝试使用 csv 阅读器：-

import csv
with open("C:\work\DATA\Raw_data\\store.csv", 'rb') as f:
    reader = csv.reader(f)
    l = list(reader)

Error:-

Error                                     Traceback (most recent call last)
<ipython-input-36-9249469f31a6> in <module>()
      1 with open('C:\work\DATA\Raw_data\\store.csv', 'rb') as f:
      2     reader = csv.reader(f)
----> 3     l = list(reader)

Error: new-line character seen in unquoted field - do you need to open the file in universal-newline mode?

我发现这个错误，原因是pandas用作行终止符的数据中有一些回车符“\r”，就好像它是“\n”一样。我想我应该在这里发帖，因为这可能是出现此错误的常见原因。

我找到的解决方案是将 lineterminator='\n' 添加到 read_csv 函数中，如下所示：

df_clean = pd.read_csv('test_error.csv',
                 lineterminator='\n')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

pandas

在 pandas 中读取 csv 文件时出错[CParserError: 标记数据时出错。 C 错误：捕获缓冲区溢出 - 可能存在格式错误的输入文件。] 的相关文章

API网关+Lambda+Python：处理异常

我正在非代理模式下从 API Gateway 调用基于 Python 的 AWS Lambda 方法我应该如何正确处理异常以便使用部分异常设置适当的 HTTP 状态代码以及 JSON 正文作为示例我有以下处理程序 def my ha
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
如何在 Django 1.4 中自定义管理过滤器

我是 Python 和 Django 开发的新手我从社区提供的易于阅读的示例中学到了很多东西但最近我想为 Django 附带的管理控制台实现一个自定义的管理过滤器我进行了很多搜索只发现了一些过时的方法来完成它例如 Django 1
有效地写入 pandas 中的多个相邻列

使用 numpy ndarray 可以一次写入多个列而无需先进行复制只要它们相邻如果我想写入数组的前三列我会写 a 0 0 3 1 2 3 this is very fast a is a numpy ndarray 我希望在 pa
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
当我移动我的 pygame 角色时，它会留下痕迹[重复]

这个问题在这里已经有答案了我一直在尝试用 Python 制作一个游戏但是当我移动我的角色时它会留下痕迹我知道它并没有显示出那么多但如果你靠近的话你可以看到这条踪迹这真的让我很困扰这是我的代码 import pygame im
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo

随机推荐

字符串是否匹配 glob 模式

我有一系列路径比方说 Users alansouza workspace project src js components chart Graph js 另外我在配置文件中有一个条目其中包含通配符 glob 格式的该路径的附加属性
Azure Databricks：访问防火墙后面的 Blob 存储

我正在从 Azure Databricks 笔记本读取 Azure Blob 存储帐户第 2 代上的文件两项服务均位于同一地区西欧一切正常除非我在存储帐户前面添加防火墙我选择允许受信任的 Microsoft 服务但是现在
touchend 处理程序触发两次

在 iOS 上的 web 应用程序上我有一堆仅响应 touchend 的按钮作为移动 safari 中点击延迟的快捷方式当我在处理程序中添加警报时随后点击页面上的任何其他按钮都会触发此原始处理程序即使它们有自己的处理程序下面是一
css 子 (>) 选择器在 IE8 中不起作用？

根据我在这里和那里收集和理解的内容当我错了时阻止我只要您使用文档类型 html5 触发标准模式子选择器 gt 就可以在 IE7 上工作应该这样做尽管如此我的CSS nav gt ul gt li gt a padding 0 2e
如何提取具有非 Unicode 非拉丁文件名的 Zip 文件？

有时您收到的 Zip 文件中的文件或目录的名称中包含一些无法识别的字符因此您无法提取它们您使用什么工具将它们提取为正确转换的文件名我在网上搜索但未能找到好的脚本所以出于必要我自己写了一个Python脚本希望它对某人有用欢迎提出
如何使用actionbarsherlock lib配置现有项目的build.gradle文件？

我在 eclipse 中有一个现有项目 MyProject 它使用库 actionbarsherlock 版本 4 3 1 该项目在 android studio 中编译并运行但我没有得到构建变体请帮忙这是我的根文件夹 project
如何使用 asort() function() 在 php 中按字母赌注对值数组进行排序

我正在使用代码
AngularJs CLI 发生未处理的异常：使用 ng g c my-compnnt 创建角度组件时，catch 子句变量不是错误实例

使用 ng g c my component 创建组件时出现以下错误发生未处理的异常 catch 子句变量不是 Error 实例有关更多详细信息请参阅文件路径角度错误 log 文件包含以下堆栈跟踪错误 AssertionError
R中令人困惑的错误：扫描错误（文件，什么，nmax，sep，dec，quote，skip，nlines，na.strings，：第1行没有42个元素）[重复]

这个问题在这里已经有答案了我是 R 新手我正在尝试读取以空格分隔的 CSV 文件该文件没有标题看起来像这样 Element1 Element2 Element5 Element6 Element7 我试图像这样读它 gt mydat
在R包“分段”中，如何将模型中的一条线的斜率设置为0？

我正在使用 R 包segmented计算模型的参数其中响应变量与解释变量线性相关直到出现断点然后响应变量变得独立于解释变量换句话说分段线性模型的第二部分的斜率 0 我已经做的是 linear1 lt lm Y X linear2
如何删除文件中以括号开头和结尾的列

如何删除文件中以括号开头和结尾的列预期输入 input txt 的内容 ABC BCD EFG BCD ABC BCD DEF BCD ABC EFG HI JKL ABC EFG HI JK LMN 预期输出 output txt 的内
面板数据 R 中的多重共线性检验

我正在使用以下命令运行面板数据回归plm封装在R并希望控制解释变量之间的多重共线性我知道有vif 函数在car package 但据我所知它无法处理面板数据输出 The plm可以进行其他诊断例如单位根检验但我发现没有计算多重共线性
Python 中的类型安全

我定义了一个Vector类具有三个属性变量 x y and z 坐标必须是实数但没有什么可以阻止人们执行以下操作 gt gt gt v Vector 8 7 3 1 gt gt gt v x foo gt gt gt v x foo 我可
R 过渡图

我想绘制一个转换矩阵但每个状态都需要 2 列我的矩阵是 gt R 0 30 60 90
Split 函数在循环内给出“下标超出范围”错误

下面的代码片段尝试查看一列单元格的内容每个单元格的格式为 X XX X XX 例如 5 66 13 44 该代码的目的是获取每个单元格将每个字符串转换为双精度值将它们与其他一些数字进行比较然后对下一个单元格重复 Sub Test D
为什么 ss 舍入到最接近的会改变日期的分钟

我正在使用 sql server 2008 R2 由于一个问题我能够知道smalldatetime 将 ss 舍入到最近的分钟这是来自 MSDN 的内容 ss is two digits ranging from 00 to 59 th
为什么 Rust 不允许局部常量的类型推断？

我理解为什么不允许模块级常量的类型推断与函数不允许类型推断的原因相同然而为什么 Rust 不允许类型推断local常数 fn main const N 1 error expected found let n 1 OK 还有比一致性更
在控制台应用程序中使用异步和等待

我有四种方法 Main 只调用preform方法工作中显示请等待用户花费时间需要时间执行的程序 Preform 异步调用取时间和工作方法以下是我的代码 using System using System Collections
在网页中的 div 中使用 REM 单位

我有一个页面使用 REM 单位和媒体查询说inner php 我将该页面包含到我的其他网页中假设outer php包含inner php 这里 inner php 使用 html font size 作为断点喜欢 media all
在 pandas 中读取 csv 文件时出错[CParserError: 标记数据时出错。 C 错误：捕获缓冲区溢出 - 可能存在格式错误的输入文件。]

所以我尝试从一个文件夹中读取所有 csv 文件然后将它们连接起来创建一个大 csv 所有文件的结构相同保存并再次读取所有这一切都是使用 Pandas 完成的读取时出现错误我附上代码和下面的错误 import pandas as p

在 pandas 中读取 csv 文件时出错[CParserError: 标记数据时出错。 C 错误：捕获缓冲区溢出 - 可能存在格式错误的输入文件。]

在 pandas 中读取 csv 文件时出错[CParserError: 标记数据时出错。 C 错误：捕获缓冲区溢出 - 可能存在格式错误的输入文件。] 的相关文章

随机推荐

热门标签