python 处理数据小工具_Python数据处理工具使用方法整理

2023-10-27

#从csv文件创建DataFrame类型的数据结构

>>>df=pd.read_csv("xxx.csv")#DataFrame类型的形状和长度

>>>df.shape

(38, 39)>>>len(df)38

#各列的标题和数据类型

>>>df.columns>>>df.dtypes#索引

>>>df.index

RangeIndex(start=0, stop=38, step=1)#将DataFrame转化成Numpy数组

>>>df.values#查看变量类型

>>>type(df)

#获取DataFrame的一列(得到的数据类型是Series)

>>>type(df)

>>> col=df['104']>>>type(col)

#Series中与DataFrame相似的属性

>>>col.shape

(38,)>>>col.values

array([301, 1051, 1657, 1852, 2057, 2258, 2938, 3418, 3718, 3938, 4148, 4568, 5068])>>>col.index

RangeIndex(start=0, stop=38, step=1)>>>col.name'104'

#截取最后几个元素

>>> col[-2:]36 65536

37 65536Name:104, dtype: int64>>> type(col[-2:])

#DataFrame的符号

>>>np.sign(df)>>> last_col=df.columns[-1]>>>np.sign(df[last_col])#head(取前几行)和tail(取后几行)

>>> df.head(2)>>> df.tail(2)#按索引查找某一行数据

>>> last_col=df.index[-1]>>>last_col>>>df.iloc[last_col]#按索引查找某一行的某一列数据

>>> df.iloc[2:9]#iloc和iat作用相同

>>> df.iloc[2,3]>>> df.iat[2,3]#逻辑查找

>>> df[df>df.mean()]#统计计算

#描述信息

>>>df.describe()#非空数据的数量

>>>df.count()#平均绝对偏差(类似于标准差)

>>>df.mad()#中位数

>>>df.median()#最小值

>>>df.min()#最大值

>>>df.max()#众数

>>>df.mode()#标准差

>>>df.std()#方差

>>>df.var()#偏态系数(skewness,表示数据的对称程度)

>>>df.skew()#峰态函数(kurtosis,表示数据分布图的尖扁程度)

>>>df.kurt()#用python字典生成DataFrame

>>> df=pd.DataFrame({'weather':['cold','hot'],'food':['soup','ice cream']})>>>df

food weather

0 soup cold1ice cream hot#对某个属性按类型分组

>>> group=df.groupby('weather')>>> for name,gro ingroup:

...print(name)

...print(gro)

...

cold

food weather

0 soup cold2cake cold

hot

food weather1ice cream hot3bread hot>>>group

#各分组第一行、最后一行、平均数

>>> group=df.groupby('weather')>>>group.first()

food price

weather

cold soup1hot ice cream2

>>>group.last()

food price

weather

cold cake3hot bread4

>>>group.mean()

price

weather

cold2hot3

#查看分组

>>> g=df.groupby(['weather','food'])>>>g.groups

{('hot', 'bread'): Int64Index([3], dtype='int64'), ('cold', 'cake'): Int64Index([2], dtype='int64'), ('hot', 'ice cream'): Int64Index([1], dtype='int64'), ('cold', 'soup'): Int64Index([0], dtype='int64')}#为分组追加属性

>>>g.agg([np.mean])

price

mean

weather food

cold cake3soup1hot bread4ice cream2

#截取几行数据并连接

>>> d=pd.concat([df[:2],df[3:]])>>>d>>> d=pd.concat([df[:2],df[3:]])>>>d

food price weather

0 soup1cold1 ice cream 2hot3 bread 4hot>>> d.append(df[3:])

food price weather

0 soup1cold1 ice cream 2hot3 bread 4hot3 bread 4 hot

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 处理数据小工具

python 处理数据小工具_Python数据处理工具使用方法整理的相关文章

新人毕业，老人跳槽：5位同学简历中的问题

新人毕业老人跳槽 2位同学简历中的15个问题又是凤凰花开新人毕业老人跳槽的季节了最近有2位同学有跳槽的意向趁着晚上和周末写写简历这2位同学很看得起我让我帮忙看看简历我反复看了简历发现了不少问题下面主要列出一些排
AIGC数据库工具-阿里开源Chat2DB

前言今天无意间发现了一个AIGC数据库工具 chat2DB 重点阿里开源其设计产品的思想给了我很多灵感故记录一下并分享给大家概述 Chat2DB 是一款有开源免费的多数据库客户端工具支持windows mac本地安装也支持服
Linux设置开机启动和定时任务crontab

一般来说Ubunt会默认安装crontab工具特别注意环境变量crontab读取不到的一定在里面不要有环境变量入口入口2 入口3 如果你需要输入密码可以在脚本中这样写 bin bash echo home pwd pwd sudo
AS/400上的FTP

3 1 1 1 AS 400上的FTP FTP是如何工作的 FTP是基于客户服务器模型而设计的客户和服务器之间利用TCP直接连接与其它客户服务器模型不同的是 FTP客户与服务器之间是要建立双重连接一个是控制连接一个是数据连接建
DS证据理论用法

一基本概念全名 DS 证据理论 Dempster Shafer envidence theory 也称为DS理论是一种处理不确定性问题的完整理论主要作用 Dempster合成规则将多个主体可以是不同的人的预测不同的传感器的数据
DATAX快速上手非常详细

前言博主在工作的过程中有一天公司决定将数据迁移的新的项目上去当我发现数据库中的表大于有4000多张表的时我顿时懵了下这数据迁移人力物力消耗的也太大了吧看DataX的设计所以我们可以借助阿里云开源的DataX来解决这个问题看完这篇
基于客户端与服务器的管理系统,基于客户端和服务器的点菜系统.doc

基于客户端和服务器的点菜系统基于客户端和服务器的点菜系统引论网络技术的不断发展传统的点菜方式发生越来越多的变化通过现代化的信息技术构建高效的共享的信息化平台建立以服务台为管理中枢的一体化管理网络实现对餐饮行业进行系统而全方
图解GPT-2

这是我翻译这位大佬的第二篇文章了翻译授权见最后其他工作图解transformer The Illustrated Transformer 图解BERT ELMo NLP中的迁移学习 The Illustrated BERT ELMo
Docker 运行时资源限制

Docker 运行时资源限制 Docker 基于 Linux 内核提供的 cgroups 功能可以限制容器在运行时使用到的资源比如内存 CPU 块 I O 网络等内存限制概述 Docker 提供的内存限制功能有以下几点容器能使用的
2.4.4 Profile基本参数

最后更新2021 07 18 通过HMC GUI界面选择一个分区然后选择ConfigurationManage Profiles或者用鼠标点击分区名右侧箭头进入分区菜单选项也可进入Profile管理页面图 234 分区Profile管
工资计算（C++）

问题描述有一个工厂有三类人固定工资工人A 计件工人B 计时工人C 构建基类工厂员工Worker类包括三个成员数据名字name 字符串string 住址address 字符串string 工资salary long int 包括成员
即时通讯源码/im源码uniapp基于在线聊天系统附完整搭建部署教程

即时通讯im源码 Instant Messaging System 是个基于uniapp项目我们在其中使用了许多uniapp服务这个纡AWS云的项目我们为想要学习uniapp和云计算的学生开发我们将提供部署说明以及uniapp即时消
Flutter状态管理之Provider的使用

当App的复杂性发展到一定程度经常会出现一个页面中不同深度的子Widget需要共享访问同一个数据状态甚至不同页面要共享同一个状态这时我们就会想到InheritedWidget InheritedWidget是 Flutter 中非常重
java实现二维码生成功能

1 由来由于现在对二维码的使用比较多正好我在项目里面也使用到了所以写篇博客记录一下 2 引入依赖
选择刷脸支付便是选择明日支付主流

刷脸支付国家政府支持发展两大支付巨头强力推广大众期盼投入未来几年的支付方式发展主题都将以刷脸支付为主旋律大势所趋下刷脸支付项目将成为最抢手的支付项目选择刷脸支付便是选择明日支付主流移动支付市场洗牌未来刷脸支付定天下现
vscode中mmgeneration的分布式训练的调试文件设置

受知乎博主的启发没弄软连接直接把launch py的路径放到了program参数中了还需要把train py中的参数设置为默认值 launch json文件的代码使用 IntelliSense 了解相关属性悬停以查看现有属性的描述
MYSQL存储结构

前言需要提前了解B树 B 树特性目录 MYSQL的数据结构主索引辅助索引通过索引查询数据时出现的关键词 MYSQL的数据结构 MYSQL数据选用B 树结构存储数据示例表 create table users id int nam
Delphi 如何GET/POST 调用HTTP请求

转载地址 https www cnblogs com limingliyu archive 2016 07 03 5638966 html HTTP请求的GET方法 procedure GetDemo var IdHttp TIdHTTP
Postman使用_加密操作

MD5加密 let token CryptJS MD5 文本内容 toString SHA256加密 let token CryptJS SHA256 文本内容 toString

随机推荐

Angular的后院：组件依赖关系的解决

by Dor Moshe 通过Dor Moshe Angular的后院解决组件依赖关系 Angular s Backyard The Resolving of Components Dependencies This article o
mac 安装 JDK

下载jdk rpm jdk 8u65 macosx x64 dmg 按照提示安装实标上我们只是把JDK1 8的文件复制到操作系统上但是我们如果要在terminal终端上使JAVA命令还有让其实应用知道JDK1 8环境的存在那我们还
echart的使用

一 echarts的通用配置想要设置图表的在窗口的位置必须设置图表盒子的位置也必须设置盒子的长度和宽度来容纳echart图像 1 title属性 1 文字样式textStyle 2 标题边框 borderWidth borderCol
宝塔面板SSL证书文件存放目录位置在哪里?

宝塔面板SSL证书文件存放目录位置在哪里宝塔面板网站安装SSL证书后 SSL证书文件存放在哪那个目录下赵一八笔记分享宝塔面板SSL证书文件存放目录位置宝塔SSL证书所在目录 SSL证书目录 www server panel vhost
第二章——开始学习C++

进入C 首先介绍一个显示消息的简单C 程序不同于以往的 Hello world include
Matter 仓库介绍

1 connectedhomeip spechttps github com CHIP Specifications connectedhomeip spec 此仓库为Matter规范技术文档 specifications 采用 Ascii
cmd如何返回上一级目录，如何进入其他文件目录

当我们打开cmd或者composer运行命令时都会进入一个默认文件目录那么cmd该如何返回上一级目录和如何进入其他文件目录运行命令呢具体方法如下图所示 1 在默认的命令后加 cd 即可返回上一级目录 2 cmd进入其他文件目录 2 1
基于.net平台常用的框架整理

分布式缓存框架 Microsoft Velocity 微软自家分布式缓存服务框架 Memcahed 一套分布式的高速缓存系统目前被许多网站使用以提升网站的访问速度 Redis 是一个高性能的KV数据库它的出现很大程度补偿了Memcach
若依后台管理系统学习

前端系统是指运行在浏览器或者移动设备上的用户界面层它负责与用户交互展示数据调用后端服务等前端系统的架构设计需要考虑以下几个方面前端系统在整个系统中的位置和关系你需要明确前端系统与后端服务数据库第三方接口等的架构上的关系业务
requests模块----这是一个强硬的手段,有多强呢?看看你就知道了

目录 requests的作发送简单的get请求发送带header的请求发送POST请求 cookies参数的使 cookie和session区别使代理设置请求超时时间请求SSL证书开始了 requests模块简单介绍 1 r
Java8基础之Serializable接口

Serializable接口介绍 Serializable 是 java io 包中定义的用于实现 Java 类的序列化操作而提供的一个语义级别的接口 Serializable 序列化接口没有任何方法或者字段只是用于标识可序列化的语义
shift算法的实现

ok 接上文咱们一个一个的来编写main函数中所涉及到所有函数这也是本文的关键部分 cpp view plain copy print 下采样原来的图像返回缩小2倍尺寸的图像 CvMat halfSizeImage CvMat im
***总结：在linux下连接redis并进行命令行操作(设置redis密码)

root iZ254lfyd6nZ cd root iZ254lfyd6nZ ls bin boot dev etc home lib lib64 lost found media mnt opt proc root sbin selinu
通信算法之184: 物理层DPD/CFR/LNA/PA
机器人教育在STEM课程中的设计研究

在美国科学技术工程和数学 STEM 教育被视为确保国家成功未来的重要一步基于现实世界中的问题开发的STEM课程可以使课程更贴近学生和教师对于更优质的STEM教育的迫切要求主要基于以下因素的考虑许多职业现在需要一支能够参与STE
啊哈C——学习6.4陶陶摘苹果

2015年2月5日22 02 03 1 陶陶家的院子里有一颗苹果树每到秋天树上就会结出10个苹果苹果成熟的时候陶陶就会跑去摘苹果陶陶有个30cm高的板凳当她不能直接用手摘到苹果是就会踩到板凳上再试试现在一直10个苹果到地面的高
华为OD机试 -百钱买百鸡问题（C++ & Java & JS & Python）

描述公元五世纪我国古代数学家张丘建在算经一书中提出了百鸡问题鸡翁一值钱五鸡母一值钱三鸡雏三值钱一百钱买百鸡问鸡翁鸡母鸡雏各几何现要求你打印出所有花一百元买一百只鸡的方式输入描述输入任何一个整数即可运行程序输
树莓派4b配置OpenWrt联网

文章目录前言一下载固件二配置wan口三简单介绍 1 修改无线名称设置密码 2 下载软件包总结前言树莓派4b内置wifi模块加一个千兆网口好像有一种办法通过无线wifi链接其他wifi通网然后把这个网口作为lan
登录鉴权

注册登录鉴权 1 1 用户注册前台需要给我们传递用户名密码手机号手机验证码验证用户前台传过来的数据是否符合规范我们使用的Hibernate Validator框架实现的服务端表单校验短信验证码这块我们采用的阿里的大于短信接口
python 处理数据小工具_Python数据处理工具使用方法整理

从csv文件创建DataFrame类型的数据结构 gt gt gt df pd read csv xxx csv DataFrame类型的形状和长度 gt gt gt df shape 38 39 gt gt gt len df 38 各列

热门标签