pandas.read_csv参数整理

2023-10-26

pandas.read_csv参数整理

读取CSV（逗号分割）文件到DataFrame

也支持文件的部分导入和选择迭代

参数：

filepath_or_buffer : str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a read() method (such as a file handle or StringIO)

可以是URL，可用URL类型包括：http, ftp, s3和文件。对于多文件正在准备中

本地文件读取实例：://localhost/path/to/table.csv

sep : str, default ‘,’

指定分隔符。如果不指定参数，则会尝试使用逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子：'\r\t'

delimiter : str, default None

定界符，备选分隔符（如果指定该参数，则sep参数失效）

delim_whitespace : boolean, default False.

指定空格(例如’ ‘或者’ ‘)是否作为分隔符使用，等效于设定sep='\s+'。如果这个参数设定为Ture那么delimiter 参数失效。

在新版本0.18.1支持

header : int or list of ints, default ‘infer’

指定行数用来作为列名，数据开始行数。如果文件中没有列名，则默认为0，否则设置为None。如果明确设定header=0 就会替换掉原来存在列名。header参数可以是一个list例如：[0,1,3]，这个list表示将文件中的这些行作为列标题（意味着每一列有多个标题），介于中间的行将被忽略掉（例如本例中的2；本例中的数据1,2,4行将被作为多级标题出现，第3行数据将被丢弃，dataframe的数据从第5行开始。）。

注意：如果skip_blank_lines=True 那么header参数忽略注释行和空行，所以header=0表示第一行数据而不是文件的第一行。

names : array-like, default None

用于结果的列名列表，如果数据文件中没有列标题行，就需要执行header=None。默认列表中不能出现重复，除非设定参数mangle_dupe_cols=True。

index_col : int or sequence or False, default None

用作行索引的列编号或者列名，如果给定一个序列则有多个行索引。

如果文件不规则，行尾有分隔符，则可以设定index_col=False 来是的pandas不适用第一列作为行索引。

usecols : array-like, default None

返回一个数据子集，该列表中的值必须可以对应到文件中的位置（数字可以对应到指定的列）或者是字符传为文件中的列名。例如：usecols有效参数可能是 [0,1,2]或者是 [‘foo’, ‘bar’, ‘baz’]。使用这个参数可以加快加载速度并降低内存消耗。

as_recarray : boolean, default False

不赞成使用：该参数会在未来版本移除。请使用pd.read_csv(...).to_records()替代。

返回一个Numpy的recarray来替代DataFrame。如果该参数设定为True。将会优先squeeze参数使用。并且行索引将不再可用，索引列也将被忽略。

squeeze : boolean, default False

如果文件值包含一列，则返回一个Series

prefix : str, default None

在没有列标题时，给列添加前缀。例如：添加‘X’ 成为 X0, X1, ...

mangle_dupe_cols : boolean, default True

重复的列，将‘X’...’X’表示为‘X.0’...’X.N’。如果设定为false则会将所有重名列覆盖。

dtype : Type name or dict of column -> type, default None

每列数据的数据类型。例如 {‘a’: np.float64, ‘b’: np.int32}

engine : {‘c’, ‘python’}, optional

Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。

converters : dict, default None

列转换函数的字典。key可以是列名或者列的序号。

true_values : list, default None

Values to consider as True

false_values : list, default None

Values to consider as False

skipinitialspace : boolean, default False

忽略分隔符后的空白（默认为False，即不忽略）.

skiprows : list-like or integer, default None

需要忽略的行数（从文件开始处算起），或需要跳过的行号列表（从0开始）。

skipfooter : int, default 0

从文件尾部开始忽略。 (c引擎不支持)

skip_footer : int, default 0

不推荐使用：建议使用skipfooter ，功能一样。

nrows : int, default None

需要读取的行数（从文件头开始算起）。

na_values : scalar, str, list-like, or dict, default None

一组用于替换NA/NaN的值。如果传参，需要制定特定列的空值。默认为‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘nan’`.

keep_default_na : bool, default True

如果指定na_values参数，并且keep_default_na=False，那么默认的NaN将被覆盖，否则添加。

na_filter : boolean, default True

是否检查丢失值（空字符串或者是空值）。对于大文件来说数据集中没有空值，设定na_filter=False可以提升读取速度。

verbose : boolean, default False

是否打印各种解析器的输出信息，例如：“非数值列中缺失值的数量”等。

skip_blank_lines : boolean, default True

如果为True，则跳过空行；否则记为NaN。

parse_dates : boolean or list of ints or names or list of lists or dict, default False

boolean. True -> 解析索引
list of ints or names. e.g. If [1, 2, 3] -> 解析1,2,3列的值作为独立的日期列；
list of lists. e.g. If [[1, 3]] -> 合并1,3列作为一个日期列使用
dict, e.g. {‘foo’ : [1, 3]} -> 将1,3列合并，并给合并后的列起名为"foo"

infer_datetime_format : boolean, default False

如果设定为True并且parse_dates 可用，那么pandas将尝试转换为日期类型，如果可以转换，转换方法并解析。在某些情况下会快5~10倍。

keep_date_col : boolean, default False

如果连接多列解析日期，则保持参与连接的列。默认为False。

date_parser : function, default None

用于解析日期的函数，默认使用dateutil.parser.parser来做转换。Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。

1.使用一个或者多个arrays（由parse_dates指定）作为参数；

2.连接指定多列字符串作为一个列作为参数；

3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。

dayfirst : boolean, default False

DD/MM格式的日期类型

iterator : boolean, default False

返回一个TextFileReader 对象，以便逐块处理文件。

chunksize : int, default None

文件块的大小， See IO Tools docs for more informationon iterator and chunksize.

compression : {‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None}, default ‘infer’

直接使用磁盘上的压缩文件。如果使用infer参数，则使用 gzip, bz2, zip或者解压文件名中以‘.gz’, ‘.bz2’, ‘.zip’, or ‘xz’这些为后缀的文件，否则不解压。如果使用zip，那么ZIP包中国必须只包含一个文件。设置为None则不解压。

新版本0.18.1版本支持zip和xz解压

thousands : str, default None

千分位分割符，如“，”或者“."

decimal : str, default ‘.’

字符中的小数点 (例如：欧洲数据使用’，‘).

float_precision : string, default None

Specifies which converter the C engine should use for floating-point values. The options are None for the ordinary converter, high for the high-precision converter, and round_trip for the round-trip converter.

指定

lineterminator : str (length 1), default None

行分割符，只在C解析器下使用。

quotechar : str (length 1), optional

引号，用作标识开始和解释的字符，引号内的分割符将被忽略。

quoting : int or csv.QUOTE_* instance, default 0

控制csv中的引号常量。可选 QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3)

doublequote : boolean, default True

双引号，当单引号已经被定义，并且quoting 参数不是QUOTE_NONE的时候，使用双引号表示引号内的元素作为一个元素使用。

escapechar : str (length 1), default None

当quoting 为QUOTE_NONE时，指定一个字符使的不受分隔符限值。

comment : str, default None

标识着多余的行不被解析。如果该字符出现在行首，这一行将被全部忽略。这个参数只能是一个字符，空行（就像skip_blank_lines=True）注释行被header和skiprows忽略一样。例如如果指定comment='#' 解析‘#empty\na,b,c\n1,2,3’ 以header=0 那么返回结果将是以’a,b,c'作为header。

encoding : str, default None

指定字符集类型，通常指定为'utf-8'. List of Python standard encodings

dialect : str or csv.Dialect instance, default None

如果没有指定特定的语言，如果sep大于一个字符则忽略。具体查看csv.Dialect 文档

tupleize_cols : boolean, default False

Leave a list of tuples on columns as is (default is to convert to a Multi Index on the columns)

error_bad_lines : boolean, default True

如果一行包含太多的列，那么默认不会返回DataFrame ，如果设置成false，那么会将改行剔除（只能在C解析器下使用）。

warn_bad_lines : boolean, default True

如果error_bad_lines =False，并且warn_bad_lines =True 那么所有的“bad lines”将会被输出（只能在C解析器下使用）。

low_memory : boolean, default True

分块加载到内存，再低内存消耗中解析。但是可能出现类型混淆。确保类型不被混淆需要设置为False。或者使用dtype 参数指定类型。注意使用chunksize 或者iterator 参数分块读入会将整个文件读入到一个Dataframe，而忽略类型（只能在C解析器中有效）

buffer_lines : int, default None

不推荐使用，这个参数将会在未来版本移除，因为他的值在解析器中不推荐使用

compact_ints : boolean, default False

不推荐使用，这个参数将会在未来版本移除

如果设置compact_ints=True ，那么任何有整数类型构成的列将被按照最小的整数类型存储，是否有符号将取决于use_unsigned 参数

use_unsigned : boolean, default False

不推荐使用：这个参数将会在未来版本移除

如果整数列被压缩(i.e. compact_ints=True)，指定被压缩的列是有符号还是无符号的。

memory_map : boolean, default False

如果使用的文件在内存内，那么直接map文件使用。使用这种方式可以避免文件再次进行IO操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas.read_csv参数整理的相关文章

Python 字符串到 SQL IN 参数的列表

我在 python 中有这个查询 ssim group S1200 S1300 query select WIPMessageCnt from waferdata where recipename in s and equipment an
如何检查有效的电子邮件地址？ [复制]

这个问题在这里已经有答案了有没有一种好方法可以使用正则表达式检查表单输入以确保它是正确样式的电子邮件地址从昨晚开始就一直在搜索如果它是子域名电子邮件地址那么每个回答过人们有关该主题的问题的人似乎也有问题无关紧要即使您可以验证电子
使用 `--pre` 选项时，pip 不匹配预发布版本

假设您已经发布了两个预发行版 package 0 0 1 dev0 package 0 0 2 dev0 My install requires部分在setup py states package gt 0 0 2 lt 1 0 0 现在
PyDev 无法再调试

我正在使用 eclipse 4 2 1 和 pydev 2 7 1 以前是 2 6 0 一切都工作正常直到调试器突然停止工作它打印 pydev debugger 开始然后根本不运行程序而是挂起根据我在其他问题报告中找到的一些信息
在 Tensorflow 2.0 中的 tf.function input_signature 中使用字典

我正在使用 Tensorflow 2 0 并面临以下情况 tf function def my fn items do stuff return 如果 items 是张量的字典例如 item1 tf zeros 1 1 item2 tf
使用 NumPy 数组执行分组平均值和标准差

我有一组数据 X Y 我的自变量值 X 不是唯一的因此有多个重复值我想输出一个新数组其中包含 X unique 它是 X 的唯一值的列表 Y mean 与 X unique 对应的所有 Y 值的平均值 Y std X unique对应
什么时候会在 dict 上使用键值对作为 dict.update 方法？

我注意到你可以做两件事来更新字典并且它们似乎有相同的结果 a a update foo 1 a a update foo 1 两者都会产生如下所示的字典结果 foo 1 是否有任何理由更喜欢使用字典或键值对作为更新方法它们在功能上是否
Pandas 随机样本删除

我知道DataFrame sample 但是我怎样才能做到这一点并从数据集中删除样本呢注意据我所知这与替换采样无关例如这里是精华我想要实现的目标这实际上不起作用 len df 1000 df subset df sample 30
使用 pandas 插值将每月值转换为每日值

我有 1000 列的 12 个平均每月值我想使用 pandas 将数据转换为每日数据我尝试过使用插但我得到了从 31 01 1991 到 31 12 1991 的每日值这并不涵盖全年一月份的值没有得到我用了日期范围用于我的数据框的
如何获取 ndarray 的 x 和 y 维度 - Numpy / Python

我想知道是否可以分别获取 ndarray 的 x 和 y 维度我知道我可以使用ndarray shape获取表示维度的元组但如何在 x 和 y 信息中分离它先感谢您您可以使用元组拆包 y x a shape
如何在使用 python 下载时优雅地超时

我正在循环下载大量文件其中包含以下代码 try urllib urlretrieve url2download destination on local filesystem except KeyboardInterrupt break
Python：如何使用 struct.pack_into 将不同类型的数据打包到字符串缓冲区中

我正在尝试将一些无符号 int 数据打包到使用创建的字符串缓冲区中ctypes create string buffer 这是以下代码段以及显示错误的运行示例在键盘上 http codepad org S8nUWMcW import st
使用 nditer 进行浅层迭代

我有这样一个数组 gt gt gt y np random randint 0 255 2 2 3 gt gt gt array 242 14 211 198 7 0 235 60 81 164 64 236 我必须迭代每个triplet元
pandas：如何将嵌套 JSON 解包为数据帧？

我有这样的 JSON 输出 json json SeriousDlqin2yrs prediction 0 prediction probs 0 0 95 1 0 04 SeriousDlqin2yrs prediction 0 predi
当日志在不同进程中发出时，caplog 中的消息为空

我正在使用 log cli true 运行测试剧本 import logging import sys from multiprocessing import Process logging basicConfig stream sys
如何在给定目标大小的情况下在 python 中调整图像大小，同时保留纵横比？

首先我觉得这是一个愚蠢的问题对此感到抱歉目前我发现计算最佳缩放因子目标像素数的最佳宽度和高度同时保留纵横比的最准确方法是迭代并选择最佳缩放因子但是必须有更好的方法来做到这一点一个例子 import cv2 numpy as
如何防止模块被导入两次？

在编写python模块时有没有办法防止它被客户端代码导入两次就像 c c 头文件一样 ifndef XXX define XXX endif 非常感谢 Python 模块不会被多次导入仅运行两次 import 不会重新加载模块如果你
按权重分组

给定以下数据框 import pandas as pd d pd DataFrame Age 18 20 20 56 56 Race A A A B B Response 3 2 5 6 2 Weight 0 5 0 5 0 5 1 2 1
使用 python 提取 MP3 URL 的 ID3 标签并进行部分下载

我需要提取远程 mp3 文件的 ID3 标签和元数据我写了几行可以获取本地文件的ID3标签 from mutagen mp3 import MP3 import urllib2 audio MP3 Whistle mp3 songtitl
使用 PyDrive 将图像上传到 Google Drive

我有一个关于 PyDrive 的愚蠢问题我尝试使用 FastAPI 制作一个 REST API 它将使用 PyDrive 将图像上传到 Google Drive 这是我的代码 from fastapi import FastAPI Fil

随机推荐

Python之体育竞技分析

来源 Python语言程序设计嵩天一问题描述需求高手过招胜负只在毫厘如何科学地分析体育竞技比赛输入球员的水平输出预测比赛成绩二具体分析三代码实现 from random import random 生成随机数
uniapp picker实现：市区镇村4级懒加载

使用这种方法的原因市区镇村4级数据太大后台接口响应时间太长方法实现样式 view
深度学习各方向开源数据集分类汇总

转载自深度学习各方向开源数据集分类汇总持续更新中哔哩哔哩目录 1 小目标检测 2 目标检测 3 人体姿态估计 4 图像分割语义分割 5 工业检测 6 人脸识别 7 自动驾驶 8 目标跟踪 9 动作识别 10 图像分类 11 图像识
基于Matlab的数字图像水印技术

基于Matlab 的数字图像水印技术课题介绍数字水印技术涉及到许多图像处理算法以及数学计算工具等如果用普通编程工具实现上述算法需要要花费大量的时间 MathWorks公司推出的一种简单高效功能极强的高级语言 MATLAB语言它
局部最小值问题

问题一个数组相邻不等返回任意一个局部最小值重点是相邻不等否则无法用此方法分析所谓局部最小值即左右相邻的数都比他大当此数为第一个时只需要右边的比他大即可最右同理代码生成随机数组相邻不等 void Random a
B站疯传！堪称最强！java超级面试资料

我没有知名企业的工作经历也没有多么耀目的成就为什么他们会对我有那么深的印象呢其实在我看来面试都是有迹可循的也就是说完全可以用很短的时间准备却给面试官留下很深的印象一好的自我介绍决定了面试的80 不管你相不相信你适不适合
DataX理论知识：简介-框架设计-数据抽取策略

文章目录一简介二框架设计三数据抽取策略一简介 DataX 是一个异构数据源离线同步工具可实现各种异构数据源之间稳定高效的数据同步功能设计理念从蜘蛛网到星型链路 DataX充当一个中转站的角色二框架
数据分析——数据特征描述、画箱线图、分组直方图

数据特征描述 import pandas as pd catering sale r H school 数据挖掘实验实验二 catering sale xls data pd read excel catering sale index
如何对SQL Server中的tempdb“减肥”

SQL Server会自动创建一个名为tempdb的数据库作为工作空间使
checkstyle:off 使用注释暂时禁用checkstyle检查

背景本文介绍在Gradle中如何跳过checkstyle对指定的文件或者指定的代码块的检查步骤 1 在checkstyle xml的
Typescript常见表达式

Typescript常见表达式一析构表达式 destructuring 1 数组析构表达式用中括号括起来 var array1 1 2 3 4 function doSomething number1 number2 others c
Java基础---反射、多线程

十反射机制 1 Java反射机制概述 1 1Java Reflection Reflection 反射是被犯为动态语言的关键反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息并能直接操作任意对象的内部属性
datetime.time类介绍

一 time是一个时间类由时分秒微妙组成其构造函数如下 class datetime time hour minute second microsecond tzinfo 参数tzinfo 它表示时区信息各参数的取值范围 hou
window安装docker Desktop和wsl2

目录一先到微软商店下载terminal 也就是power shell 后续命令都在这个里面执行二安装docker Destop 1 打开控制面板 2 勾选Hyper V服务 3 根据提示重启电脑等待更新即可二启动Docker
字符串去重的5种方式

public class Demo public static void main String args String str albcad12l gt sfg gt String newStr quChong5 str System o
深度负反馈

负反馈放大电路的方块图因为负反馈放大电路有四种组态而且对于同一种组态具体电路也各不相同所以为了研究负反馈放大电路的共同规律可以利用方块图来描述所有电路一负反馈放大电路的方块图表示法任何负反馈放大电路都可以用下图所示的方块图来
windows服务器禁用135,137,138,139,445端口方法

windows服务器禁用135 137 138 139 445端口方法 1 防火墙新建入站和出站规则注意此方法只针对防火墙已开启的情况下才能实现禁用端口打开控制面板系统和安全 Windows Defender 防火墙在左侧选择高
安装Apache Hive-2.3.3

1 Hive是什么 1 1 Hive是数据仓库数据仓库英文名DataWarehouse 可简写为DW或DWH 数据仓库由数据仓库之父比尔恩门 Bill Inmon 于1990年提出主要功能仍是将组织透过资讯系统之联机事务处理 OLT
【H.264/AVC视频编解码技术详解】十七：帧内预测编码的预测实现方法

H 264 AVC视频编解码技术详解视频教程已经在 CSDN学院上线视频中详述了H 264的背景标准协议和实现并通过一个实战工程的形式对H 264的标准进行解析和实现欢迎观看纸上得来终觉浅绝知此事要躬行只有自己按照标准文档
pandas.read_csv参数整理

pandas read csv参数整理转载读取CSV 逗号分割文件到DataFrame 也支持文件的部分导入和选择迭代更多帮助参见 http pandas pydata org pandas docs stable io html

pandas.read_csv参数整理

pandas.read_csv参数整理 的相关文章

随机推荐

热门标签

pandas.read_csv参数整理的相关文章