【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值）

2023-11-04

1、pandas的解析函数

函数	描述
`read_csv`	从文件、URL或文件对象读取分隔好的数据，`，`是默认的分隔符
`read_table`	从文件、URL或文件型对象读取分隔好的数据，制表符 (`\t`)是默认的分隔符
read_fwf	从特定宽度格式的文件中读取数据 (无分隔符)
read_clipboard	read_table的剪贴板版本，在将表格从Web 页面上转换成数据时有用
read_excel	从Excel的XLS或XLSX文件中读取表格数据
read_hdf	读取用pandas存储的HDF5文件
read_html	从HTML文件中读取所有表格数据
read_json	从JSON(JavaScript Object Notation) 字符串中读取数据
read_msgpack	读取MessagePack 二进制格式的pandas数据
read_pickle	读取以Pythonpickle格式存储的任意对象
read_sas	读取存储在SAS系统中定制存储格式的SAS数据集
read_sql	将SOL查询的结果(使用SOLAlchemy)读取为pandas的DataFrame
read_stata	读取Stata格式的数据集
read feather	读取Feather二进制格式

2、`read_csv`、`read_table`函数参数

参数	描述
`path`	表明文件系统位置的字符串、URL 或文件型对象
`sep`	用于分隔每行字段的字符序列或正则表达式
`header`	用作列名的行号，默认是0(第一行)，如果没有列名的话，应该为None
`index_col`	用作结果中行索引的列号或列名，可以是一个单一的名称/数字也可以是一个分层索引
`names`	结果的列名列表，和 header=None 一起用
`skiprows`	从文件开头处起，需要跳过的行数或行号列表
`na_values`	需要用NA替换的值序列
comment	在行结尾处分隔注释的字符
parse_dates	尝试将数据解析为 datetime，默认是 False。如果为 True，将尝试解析所有的列。也可以指定列号或列名列表来进行解析。如果列表的元素是元组或列表，将会把多个列组合在一起进行解析(例如日期/时间将拆分为两列)
keep date col	如果连接列到解析日期上，保留被连接的列，默认是 False
converters	包含列名称映射到函数的字典 (例如[foo’:f会把函数f应用到’foo’列)
dayfirst	解析非明确日期时，按照国际格式处理(例如7/6/2012-> June7,2012)，默认为 False

3、分隔符（`sep`）

# 1、读取ex1文件（read_csv）
pd.read_csv(Path('../源代码/examples/ex1.csv'))
"""
	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo
"""
-------------------------------------------------------------
# 1-1、读取文件（read_table）
pd.read_table(Path('../源代码/examples/ex1.csv'))
"""
	a,b,c,d,message
0	1,2,3,4,hello
1	5,6,7,8,world
2	9,10,11,12,foo
"""
-------------------------------------------------------------
# 1-2、读取文件，分隔符（sep）
pd.read_table(Path('../源代码/examples/ex1.csv'),sep=',')
"""
a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo
"""
-------------------------------------------------------------
# 4、读取ex3.txt文件（read_csv）
pd.read_csv(Path('../源代码/examples/ex3.txt'))
"""
A B C
0	aaa -0.264438 -1.026059 -0.619500
1	bbb 0.927272 0.302904 -0.032399
2	ccc -0.264273 -0.386314 -0.217601
3	ddd -0.871858 -0.348382 1.100491
"""
-------------------------------------------------------------
# 4-1、用正则表达式，作为分隔符，【正则表达式】\s+ 意思就是至少有一个空白字符存在
pd.read_csv(Path('../源代码/examples/ex3.txt'),sep='\s+')
"""
		A			B			C
aaa	-0.264438	-1.026059	-0.619500
bbb	0.927272	0.302904	-0.032399
ccc	-0.264273	-0.386314	-0.217601
ddd	-0.871858	-0.348382	1.100491
"""

4、设置列名（`header`、`names`）

# 2、读取ex2文件（read_csv），没有列名
pd.read_csv(Path('../源代码/examples/ex2.csv'))
"""
	1	2	3	4	hello
0	5	6	7	8	world
1	9	10	11	12	foo
"""
-------------------------------------------------------------
# 2-1、默认列名（header=None）
pd.read_csv(Path('../源代码/examples/ex2.csv'),header=None)
"""
	0	1	2	3	4
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo
"""
-------------------------------------------------------------
# 2-2、指定列名（names）
pd.read_csv(Path('../源代码/examples/ex2.csv'),names=['a','b','c','d','message'])
"""
	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo
"""
-------------------------------------------------------------
# 2-3、列名变成行索引（index_col）
pd.read_csv(Path('../源代码/examples/ex2.csv'),names=['a','b','c','d','message'],index_col='message')
"""
		a	b	c	d
message				
hello	1	2	3	4
world	5	6	7	8
foo	9	10	11	12
"""

5、跳行（`skiprows`）

# 5、读取ex4.txt文件（read_csv）
pd.read_csv(Path('../源代码/examples/ex4.csv'))
"""
														# hey!
								a		b		c	d	message
# just wanted to make things for you	NaN		NaN	NaN	NaN
# who reads CSV files with computers	anyway	NaN	NaN	NaN
									1	2		3	4	hello
									5	6		7	8	world
									9	10		11	12	foo
"""
-------------------------------------------------------------
# 5-1、跳过第1、3、4行（skiprows）
pd.read_csv(Path('../源代码/examples/ex4.csv'),skiprows=[0,2,3])
"""
	a	b	c	d	message
0	1	2	3	4	hello
1	5	6	7	8	world
2	9	10	11	12	foo
"""

6、处理缺失值（`na_values`）

# 6、读取ex5.txt文件（read_csv）
pd.read_csv(Path('../源代码/examples/ex5.csv'))
"""
	something	a	b	c	d	message
0	one			1	2	3.0	4	NaN
1	two			5	6	NaN	8	world
2	three		9	10	11.0	12	foo
"""
-------------------------------------------------------------
# 6-1、判断是否为空（isnull）
pd.isnull(pd.read_csv(Path('../源代码/examples/ex5.csv')))
"""
	something	a		b		c		d		message
0	False		False	False	False	False	True
1	False		False	False	True	False	False
2	False		False	False	False	False	False
"""
-------------------------------------------------------------
# 6-2、指定缺失值（na_values）
pd.read_csv(Path('../源代码/examples/ex5.csv'),na_values={'something':['one']})
"""
	something	a	b	c		d	message
0	NaN			1	2	3.0		4	NaN
1	two			5	6	NaN		8	world
2	three		9	10	11.0	12	foo
"""

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析

pandas

python

开发语言

【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值）的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
当价格低于阈值时使用 pandas DataFrame 实施矢量化止损

给出这个示例数据框 date close signal positions 2017 01 02 27 90 0 0 0 0 2017 01 03 27 76 0 0 0 0 2017 01 04 28 65 1 0 1 0 2017 01
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

Lua UnPack函数用法

这篇文章主要介绍了Lua UnPack函数用法实例 unpack它接受一个数组 table 作为参数并默认从下标1开始返回数组的所有元素 local info 1 2 3 4 5 6 local a b c d e f unpack in
jenkins_svn_maven持续集成

详解Jenkins svn maven 项目持续集成第一步由于刚刚接触jenkins 并不知道他是个什么东西首先百度一下然后进入官网下载安装包第二步 windows 安装下载完了打开里面有2个文件 setup exe Jen
JVM内存模型详解

目录 1 JVM整体架构 2 JVM运行时内存 2 1 PC程序计数器 2 2 虚拟机栈 2 2 1 什么是栈帧 2 2 2 局部变量表 2 2 3 操作数栈 2 2 4 动态链接 2 2 5 方法返回地址 2 3 本地方法栈 2 4 堆
LNK1104 无法打开文件 libboost_system-vc142-mt-gd-x64-1_74.lib

LNK1104 无法打开文件 libboost system vc142 mt gd x64 1 74 lib 问题解决
【应急响应】挖矿脚本检测指南&威胁情报&样本定性&文件清除&入口修复

文章目录挖矿样本 Win Linux 危害定性 Linux Web安全漏洞导致挖矿事件 Windows 系统口令爆破导致挖矿事件 Linux 个人真实服务器被植入挖矿分析挖矿样本 Win Linux 危害定性危害 CPU拉满网络
vue-admin-beautiful 同时使用Api和MockJs

根据项目修改接口地址config net config js 此处按自己所需组装把utils request js复制一份并重命名为request mock js 把baseURL设置为 vab mock server 使用mock数据
print()函数中引号的用法

首先在开头强调非常重要的一点在python学习中默认所有的正确的语法包括括号标点符号等都是英文 print 函数的用法有四种 1 无引号 2 单引号 3 双引号 4 三引号 1 无引号 print 520 没有引号的作用是为了让计
ThinkPHP5 三表联合查询

使用ThinkPHP5 查询构建起进行三表联合查询 account info Db name third party tasks gt alias a gt join third party taskgroups b a taskGroup
[4G&5G专题-128]：5G培训关键技术篇-1-5G的网络概述

作者主页 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 118459771 目录第1部分移动业务需求趋势
超详细html5登录注册页面总结

一 HTML5简介 HTML是互联网上应用最广泛的标记语言 HTML文件就是普通文本 HTML标记而不同的HTML标记能表示不同的效果 HTML5优势 HTML5并不是一种革新的的升级而是一种向规范向习惯的妥协因此HTML5并不会带给
VS开发QT项目，手写按钮槽函数避坑

VS开发QT项目手写按钮槽函数避坑 1 QT Creator按钮槽函数 2 VS中添加按钮槽函数 3 踩坑由于最近开发需要在VS2017上配置QT开发环境进行QT项目的开发之前从来没有这样使用过在此记一些坑 1 QT Creato
Android深入浅出之Binder机制

转自 http www cnblogs com innost archive 2011 01 09 1931456 html Android深入浅出之Binder机制一说明 Android系统最常见也是初学者最难搞明白的就是Binder
ue4修改缓存路径到项目文件下面

InstalledDerivedDataBackendGraph Path ENGINEVERSIONAGNOSTICUSERDIR DerivedDataCache EditorOverrideSetting LocalDerivedDa
android自动化静态代码分析,使用Android Studio Lint静态分析(一)

主要内容使用Android Studio提供的工具配置Lint扫描范围和检查项在使用 Lint 改进您的代码文档中属于手动运行检查程序静态分析程序静态分析是指在不运行代码的方式下通过词法分析语法分析控制流数据流分析等技术
2013年9月5日星期四（8-5，缩放）

缩放很简单就是把各个坐标乘以缩放因子即可这次是一个多边形 int Scale Polygon2D POLYGON2D PTR poly float sx float sy this function scalesthe local co
基于webkit内核webos系统架构（一）

转自 http blog csdn net huryjiang article details 7556167 1 引言 WebOS Web based Operating System 或者我们称为网络操作系统是一种基于浏览器的虚拟的操
【100天精通Python】Day53：Python 数据分析_NumPy数据操作和分析进阶

目录 1 广播 2 文件输入和输出 3 随机数生成 4 线性代数操作 5 进阶操作 6 数据分析示例 1 广播广播是NumPy中的一种机制用于在不同形状的数组之间执行元素级操作使它们具有兼容的形状广播允许你在不显式复制数据的情况下
bp是什么意思贷款利率,利率上bp是什么意思

利率中的BP是什么意思 BP是basicpoint的缩写中文通常叫做基点金融业通常采用基点来表示金融工具的利率变动或两种利率包括固定收益证券的收益率之间的差额差价由于某些贷款和债券可能通常与某些指数或基本证券相关所以它们通常
小芳的妈妈每天给她2.5元钱她都会存起来但是每当这一天是存钱的第五天或者五倍数是她都会花去六元他从100元钱需要多少钱

include
【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值）

1 pandas的解析函数函数描述 read csv 从文件 URL或文件对象读取分隔好的数据是默认的分隔符 read table 从文件 URL或文件型对象读取分隔好的数据制表符 t 是默认的分隔符 read fwf 从特定宽度格

【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值）

1、pandas的解析函数

2、read_csv、read_table函数参数

3、分隔符（sep）

4、设置列名（header、names）

5、跳行（skiprows）

6、处理缺失值（na_values）

【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值） 的相关文章

随机推荐

热门标签

2、`read_csv`、`read_table`函数参数

3、分隔符（`sep`）

4、设置列名（`header`、`names`）

5、跳行（`skiprows`）

6、处理缺失值（`na_values`）

【第6章】1、pandas读取文件（sep分隔符，header列名，skiprows跳行、na_values缺失值）的相关文章