Pandas 分类数据

2023-11-11

category的创建及其性质

分类变量的创建
（a）用Series创建

pd.Series([“a”, “b”, “c”, “a”], dtype=“category”)得出

0 a
1 b
2 c
3 a
dtype: category
Categories (3, object): [a, b, c]

（b）对DataFrame指定类型创建

temp_df = pd.DataFrame({‘A’:pd.Series([“a”, “b”, “c”, “a”], dtype=“category”),‘B’:list(‘abcd’)})
temp_df.dtypes

A category
B object
dtype: object

（c）利用内置Categorical类型创建

cat = pd.Categorical([“a”, “b”, “c”, “a”], categories=[‘a’,‘b’,‘c’])
pd.Series(cat)

0 a
1 b
2 c
3 a
dtype: category
Categories (3, object): [a, b, c]

（d）利用cut函数创建
默认使用区间类型为标签

pd.cut(np.random.randint(0,60,5), [0,10,30,60])

[(30, 60], (30, 60], (10, 30], (30, 60], (0, 10]]
Categories (3, interval[int64]): [(0, 10] < (10, 30] < (30, 60]]

可指定字符为标签

pd.cut(np.random.randint(0,60,5), [0,10,30,60], right=False, labels=[‘0-10’,‘10-30’,‘30-60’])

[10-30, 30-60, 30-60, 10-30, 30-60]
Categories (3, object): [0-10 < 10-30 < 30-60]

分类变量的结构
一个分类变量包括三个部分，元素值（values）、分类类别（categories）、是否有序（order）
从上面可以看出，使用cut函数创建的分类变量默认为有序分类变量
下面介绍如何获取或修改这些属性
（a）describe方法
该方法描述了一个分类序列的情况，包括非缺失值个数、元素值类别数（不是分类类别数）、最多次出现的元素及其频数

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.describe()

count 4
unique 3
top a
freq 2
dtype: object

（b）categories和ordered属性
查看分类类别和是否排序

类别的修改
（a）利用set_categories修改
修改分类，但本身值不会变化

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.cat.set_categories([‘new_a’,‘c’])

0 NaN
1 NaN
2 c
3 NaN
4 NaN
dtype: category
Categories (2, object): [new_a, c]

（b）利用rename_categories修改
需要注意的是该方法会把值和分类同时修改

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.cat.rename_categories([‘new_%s’%i for i in s.cat.categories])

0 new_a
1 new_b
2 new_c
3 new_a
4 NaN
dtype: category
Categories (4, object): [new_a, new_b, new_c, new_d]

利用字典修改值

s.cat.rename_categories({‘a’:‘new_a’,‘b’:‘new_b’})

0 new_a
1 new_b
2 c
3 new_a
4 NaN
dtype: category
Categories (4, object): [new_a, new_b, c, d]

（c）利用add_categories添加

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.cat.add_categories([‘e’])

0 a
1 b
2 c
3 a
4 NaN
dtype: category
Categories (5, object): [a, b, c, d, e]

d）利用remove_categories移除

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.cat.remove_categories([‘d’])

0 a
1 b
2 c
3 a
4 NaN
dtype: category
Categories (3, object): [a, b, c]

（e）删除元素值未出现的分类类型

s = pd.Series(pd.Categorical([“a”, “b”, “c”, “a”,np.nan], categories=[‘a’,‘b’,‘c’,‘d’]))
s.cat.remove_unused_categories()

0 a
1 b
2 c
3 a
4 NaN
dtype: category
Categories (3, object): [a, b, c]

分类变量的排序

前面提到，分类数据类型被分为有序和无序，这非常好理解，例如分数区间的高低是有序变量，考试科目的类别一般看做无序变量

序的建立

（a）一般来说会将一个序列转为有序变量，可以利用as_ordered方法
退化为无序变量，只需要使用as_unordered

s = pd.Series([“a”, “d”, “c”, “a”]).astype(‘category’).cat.as_ordered()
s

0 a
1 d
2 c
3 a
dtype: category
Categories (3, object): [a < c < d]

s.cat.as_unordered()

0 a
1 d
2 c
3 a
dtype: category
Categories (3, object): [a, c, d]

b）利用set_categories方法中的order参数

pd.Series([“a”, “d”, “c”, “a”]).astype(‘category’).cat.set_categories([‘a’,‘c’,‘d’],ordered=True)

0 a
1 d
2 c
3 a
dtype: category
Categories (3, object): [a < c < d]

（c）利用reorder_categories方法
这个方法的特点在于，新设置的分类必须与原分类为同一集合

s = pd.Series([“a”, “d”, “c”, “a”]).astype(‘category’)
s.cat.reorder_categories([‘a’,‘c’,‘d’],ordered=True)
#s.cat.reorder_categories([‘a’,‘c’],ordered=True) #报错
#s.cat.reorder_categories([‘a’,‘c’,‘d’,‘e’],ordered=True) #报错

排序

先前在第1章介绍的值排序和索引排序都是适用的

s = pd.Series(np.random.choice([‘perfect’,‘good’,‘fair’,‘bad’,‘awful’],50)).astype(‘category’)
s.cat.set_categories([‘perfect’,‘good’,‘fair’,‘bad’,‘awful’][::-1],ordered=True).head()

0 good
1 fair
2 bad
3 perfect
4 perfect
dtype: category
Categories (5, object): [awful < bad < fair < good < perfect]

s.sort_values(ascending=False).head()

29 perfect
17 perfect
31 perfect
3 perfect
4 perfect
dtype: category
Categories (5, object): [awful, bad, fair, good, perfect]

df_sort = pd.DataFrame({‘cat’

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

Pandas 分类数据的相关文章

在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
根据值合并行（pandas 到 excel - xlsxwriter）- 加法

跟进这个问题 https stackoverflow com questions 61217923 merge rows based on value pandas to excel xlsxwriter 61228294 noredire
使用 pandas 创建虚拟变量时 Jupyter Notebook 内核崩溃

我正在参加 Walmart Kaggle 竞赛并且正在尝试创建 FinelineNumber 列的虚拟列对于上下文 df shape回报 647054 7 我正在尝试制作一个虚拟列df FinelineNumber 其中有 5 196
Matplotlib 动画迭代 pandas 数据帧列表

我有一个 pandas DataFrame 列表每个数据框有 2 列到目前为止我有一个函数当给定索引 i 时它会采用与索引 i 相对应的框架并根据第二列的数据绘制第一列的数据图 list f0 f1 f2 f3 f4 f5 f6
复制单元格包含多条数据的行

我想获取一个数据框并复制某些行一列称为name 可能有多个名称下面构建了一个示例数据框 data Joe 17 11 2018 2 Karen 17 11 2018 4 Bill Avery 17 11 2018 6 Sam 18 1
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
将一个时间序列插入到 pandas 中的另一个时间序列中

我有一组定期测量的值说 import pandas as pd import numpy as np rng pd date range 2013 01 01 periods 12 freq H data pd Series np ran
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
Pandas HD5-查询，其中表达式失败

我想查询 HDF5 文件我愿意 df to hdf pfad df format table 将数据帧写入光盘为了阅读我使用 hdf pandas HDFStore pfad 我有一个列表其中包含numpy datetime64值称为
如何将 Pandas 数据帧的多列弹出到新数据帧中？

假设我有以下内容 df pd DataFrame a range 2 b range 2 c range 2 d range 2 我想将两列 c 和 d 从数据框中弹出到一个新的数据框中将 a 和 b 留在原始 df 中以下不起作用
计算列表中每个项目在 pandas 数据框列中出现的次数，并用逗号分隔值

我有一个清单 citylist New York San Francisco Los Angeles Chicago Miami 和带有这些值的 pandas Dataframe df1 first last city email John
Pandas - 通过在另一个数据框中查找来替换值

我需要用 Python3 解决 pandas 数据框中的问题我有两个数据框第一个是 ID Name Linked Model 1 Linked Model 2 Linked Model 3 0 100 A 1111 0 1112 0 N
如何向 pandas 数据框列添加小时

我有一个 pandas 数据帧时间列如下所示 segments data time Out 1585 0 04 50 00 1 04 50 00 2 05 00 00 3 05 12 00 4 06 04 00 5 06 44 00 6
pandas 数据框的最大大小

我正在尝试使用读取一个有点大的数据集pandas read csv or read stata功能但我不断遇到Memory Errors 数据帧的最大大小是多少我的理解是只要数据适合内存数据帧就应该没问题这对我来说不应该是问题还
Pandas 中每列的曲线拟合 + 外推值

我有一个包含大约 300 列的数据集每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X

随机推荐

基于Loung Attention+LSTM的机器翻译模型

目录需要掌握的基础知识 1 Encoder Decoder架构 2 LSTM模型原理 3 Attention机制基于Loung Attention LSTM的机器翻译模型模型数据训练基于Bahdanau Attention LS
大数据安全治理平台建设方案

近年来随着大数据应用的普及在新基建智慧城市云端应用等大背景趋势下给我们日常生活便来了很多方便同时也派生出更多网络安全风险如企业数据泄露欺诈数据违规使用个人隐私泄露以及企业内部各种威胁和潜在风险数据是宝贵的资源和财富当
LCD操作原理

一 LCD原理介绍 LCD内部内部结构 1 lcd由Framebuffer lcd屏幕信号线电子枪 lcd控制器组成 2 Framebuffer提供显示数据 lcd屏幕显示信号线传输Frambuffer中的数据和lcd控制器发出的信号
【深度学习】Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升...

转载自新智元继超快且省内存的注意力算法FlashAttention爆火后升级版的2代来了 FlashAttention 2是一种从头编写的算法可以加快注意力并减少其内存占用且没有任何近似值比起第一代 FlashAttention
Sqli-labs Less-1 报错注入

Sqli labs Less 1 报错注入 1 首先打开less1后是一个页面提示输入id作为参数输入id 1试一下然后会出现 name 和 password 添加一个单引号测试一下注入点输入单引号发现会直接将报错结果显示在页面
模拟IC设计——MOS计算及常见MOS管电路

小生初入模拟IC 作此笔记在大佬面前实属班门弄斧若有不当之处还请指正 1 MOSFET概述场效应管与晶体管一样也具有放大作用但与普通晶体管是电流控制型器件相反场效应管是电压控制型器件它具有输入阻抗高噪声低的特点 1 MOSFE
使用OpenCV中的matchTemplate函数实现模板匹配【C++版】

matchTemplate函数原型 void cv matchTemplate InputArray image InputArray templ OutputArray result int method InputArray mask
THREEJS - 动态标签（dom方式）

在三维场景中我们会有一种需求需要给三维场景中的模型打上标签例如展示模型的名称性能展示等三维场景打标签的方式很多有dom sprite Mesh等等这篇文章来给大家介绍的是一种比较常见的打标签方式 dom 这种方式我们可以自定义
WSL2和本地windows端口互通

众所周知 WSL 默认安装后只允许windows访问 Windows Subsystem for Linux 而WSL是不能反之访问本地windows 我之前用vmware的思路认为是nat的网络模式于是改成了桥接结果wsl的桥接模式
springboot日志配输出路径配置_SpringBoot输出日志到文件

1 基本信息 SpringBoot版本2 2 5 日志框架SLF4J 日志框架的实现LockBack 2 输出文件的配置 2 1 logging file name 指定日志文件的位置 2 1 1 例1 使用相对路径就会在项目根目录下生成
R 语言散点图矩阵

多个变量之间的关系经常用散点图矩阵表示 ggplot2 包没有提供专门的散点图矩阵基础 R 图形中提供了 pairs 函数作散点图矩阵 GGally 包提供了一个 ggscatmat 函数作散点图矩阵例如对 iris 数据的四个测量值
UE4 C++ FString乱码显示问号

如果以 xxx 这种形式并且xxx为中文时直接赋值给FString的变量会丢失数据导致系统无法识别因此需要做特殊处理第一种解决办法引号前加L表示将字符串转为unicode的字符串也就是每个字符占用两个字节 FString str
【无标题】DEFI+NFT新玩法

DeFi NFT 去中心金融非同质化货币 NFT Defi就是将流动性挖矿的方法移植到到NFT领域目前典型的代表有MEME SAND RARI等区块链行业一直困于圈内自嗨无法真正走入大众市场市场和用户规模的增量相比互联网行业是杯
学习笔记-二叉排序树

二叉排序树对于二叉排序树的任何一个非叶子节点要求左子节点的值比当前节点的值小右子节点的值比当前节点的值大如果有相同的值可以将该节点放在左子节点或右子节点二叉排序树的创建和遍历思路比较节点的值小于就放在左子节点大于就放在右
使用 AJAX+JSON 实现用户查询/添加功能

实现用户查询添加功能 1 查询功能准备 selectAllServlet brand html 2 添加功能 addBrand html 表单
基于51单片机的课程设计（毕业设计）——电子贺卡

本篇文章将介绍一个基于51单片机的电子贺卡本作品可用于课程设计毕业设计的参考其所用到的外设硬件以及程序的代码量都是相对较少的对于51单片机的初学者通过本设计熟悉51单片机的使用是非常好的选择目录一实现功能二硬件准备三
短信猫（GSM MODEM）安装指南

短信猫 GSM MODEM 安装指南短信猫又名GSM MODEM 专门针对短信应用设计内含工业级短信发送模块简化了通信接口性能稳定可靠符合各种商业和工业级短信应用要求支持向移动联通以及小灵通用户收发短信适用于各行各业各个领
vue element UI图片上传到fastDFS 前/后台实现图片显示

第一次开发element图片上传到网上找了很多例子感觉不全面所以才写了这篇文章希望帮助新手快速开发 vue 使用element实现本地预览最主要的是将图片路径转换为base64 VUE HTML
STM32 江协教程 EXTI外部中断（对射式红外传感器计次、旋转编码器计次）笔记补充旋转编码器判断方向的两种实现方法记录

这里是看了江协STM32 EXTI中断视频并配合笔记STM32学习笔记三丨中断系统丨EXTI外部中断对射式红外传感器计次旋转编码器计次后的一点小补充方法一一方下降沿同时查看另一方电平以A为例 A下降时若B为高电平则为正向 A
Pandas 分类数据

category的创建及其性质分类变量的创建 a 用Series创建 pd Series a b c a dtype category 得出 0 a 1 b 2 c 3 a dtype category Categories 3 obje

Pandas 分类数据

Pandas 分类数据 的相关文章

随机推荐

热门标签

Pandas 分类数据的相关文章