ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误

2023-11-25

我正在尝试阅读csv使用 pandas 文件

df1 = pd.read_csv('panda_error.csv', header=None, sep=',')

但我收到此错误：

ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10

为了重现性，这里是 csv 文件panda_error.csv

superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Corynebacteriaceae , genus:Corynebacterium , species:Corynebacterium efficiens  1
superkingdom:Bacteria , phylum:Proteobacteria , class:Alphaproteobacteria , order:Rhizobiales , family:Aurantimonadaceae , genus:Aurantimonas , species:Aurantimonas manganoxydans  1
superkingdom:Bacteria , phylum:Proteobacteria , subphylum:delta/epsilon subdivisions , class:Deltaproteobacteria , no rank:unclassified Deltaproteobacteria , genus:Candidatus Entotheonella    1
superkingdom:Bacteria , phylum:Proteobacteria , class:Gammaproteobacteria , order:Pseudomonadales , family:Pseudomonadaceae , genus:Pseudomonas , species group:Pseudomonas syringae group , species subgroup:Pseudomonas syringae group genomosp. 2 , species:Pseudomonas amygdali , no rank:Pseudomonas amygdali pv. tabaci   1
superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Nocardiaceae , genus:Rhodococcus , species:Rhodococcus wratislaviensis  1
superkingdom:Bacteria , phylum:Firmicutes , class:Clostridia , order:Clostridiales , family:Peptostreptococcaceae , genus:Peptoclostridium , species:Peptoclostridium difficile1

我不太确定为什么会发生这种情况以及如何解决这个问题。其他答案只是建议 1. 忽略使用的令人不安的行error_bad_lines=False我不想这样做，或者2.特定于某些场景。

如果有帮助的话，这是完整的错误消息：

---------------------------------------------------------------------------
ParserError                               Traceback (most recent call last)
<ipython-input-34-72c0ecaf0513> in <module>
----> 1 df1 = pd.read_csv('panda_error.csv', header=None, sep=',')

/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
    683         )
    684 
--> 685         return _read(filepath_or_buffer, kwds)
    686 
    687     parser_f.__name__ = name

/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in _read(filepath_or_buffer, kwds)
    461 
    462     try:
--> 463         data = parser.read(nrows)
    464     finally:
    465         parser.close()

/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows)
   1152     def read(self, nrows=None):
   1153         nrows = _validate_integer("nrows", nrows)
-> 1154         ret = self._engine.read(nrows)
   1155 
   1156         # May alter columns / col_dict

/opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows)
   2057     def read(self, nrows=None):
   2058         try:
-> 2059             data = self._reader.read(nrows)
   2060         except StopIteration:
   2061             if self._first_chunk:

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows()

pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error()

ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10

这个解决方案为我工作

### Loop the data lines
with open("panda_error.csv", 'r') as temp_f:
    # get No of columns in each line
    col_count = [ len(l.split(",")) for l in temp_f.readlines() ]

### Generate column names  (names will be 0, 1, 2, ..., maximum columns - 1)
column_names = [i for i in range(0, max(col_count))]

### Read csv
df = pd.read_csv("panda_error.csv", header=None, delimiter=",", names=column_names)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误

python

pandas

DataFrame

tokenize

ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误的相关文章

python - 是否可以扩展 xml-rpc 可以序列化的事物集？

Python 3 getattribute 与点访问行为

python 中分割字符串以获得一个值？

可以在 TensorFlow 中使用排名相关作为成本函数吗？

Pandas重置索引未生效[重复]

如何从 Dockerfile 安装 Python 3.7 和 Pip

定义函数后对其进行修饰？

如何使用 python urllib 在 HTTP/1.1 中保持活力

无法打开 Python。错误 0xc000007b

如何通过双击在浏览器中打开 ipynb 文件

Python：计算数据帧列中所有行中特定字符的实例数

将输入发送到 python 子进程而不等待结果

Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

如何通过字符串匹配加速 pandas 行过滤？

Python - 如何查询定义方法的类？

Python组合目录中的所有csv文件并按日期时间排序

全局变量是 None 而不是实例 - Python

ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误

ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误 的相关文章

ParserError：标记数据时出错。 C 错误：第 4 行应有 7 个字段，但读取 csv 文件时出现 10 个错误的相关文章