pandas基础入门之数据修改与基本运算

2023-10-26

1.数据复制。

直接赋值，

直接赋值的话，只是复制的元数据(行列索引)，但是元素还是存储在相同内存位置对元素进行修改会影响另外一个。

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(12).reshape(4,3),index=list("abcd"),columns=['w','y','z'])
print(df)
print(df.iloc[1,2])
df.iloc[1,2]=20
print(df.iloc[1,2])



out：
   w   y   z
a  0   1   2
b  3   4   5
c  6   7   8
d  9  10  11
5-------->>赋值之前
20-------->>赋值之后

copy()函数。

copy函数，复制原数据(行列索引)，还创建新的存储位置对元素进行修改不影响另外一个。

df=pd.DataFrame(np.arange(12).reshape(4,3),index=list("abcd"),columns=['w','y','z'])
print(df)
df1=df.copy()
print(df1.iloc[1,2])
df1.iloc[1,2]=20
print(df.iloc[1,2])



out：
   w   y   z
a  0   1   2
b  3   4   5
c  6   7   8
d  9  10  11
5
5

2.增加行和列。

通过[]操作符+列名方式增加多列新增列在最后 df[['new_column1','new_column2',...]] =
通过loc+列名新增一列，不能新增多列新增列在最后 pd.loc[:, 'new_column'] =
insert(loc, column, value, allow_duplicates=False)

loc位置参数：0 <= loc <= len(columns)

column：列名新增列在中间，一次只能增加一列

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(12).reshape(4,3),index=list("abcd"),columns=['w','y','z'])
print(df)
df['n']=[3,7,9,11]
df[['x','k']]=df[['w','z']]
df.loc[:,'r']=[12,13,15,16]
df.insert(1,'t',[31,56,78,5])------>>增加在第一列
print(df)



out：
   w   y   z
a  0   1   2
b  3   4   5
c  6   7   8
d  9  10  11
   w   t   y   z   n  x   k   r
a  0  31   1   2   3  0   2  12
b  3  56   4   5   7  3   5  13
c  6  78   7   8   9  6   8  15
d  9   5  10  11  11  9  11  16

增加列。

新增行在最后通过loc函数新增一行，不能新增多行 pd.loc['new-index'] =

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(12).reshape(4,3),index=list("abcd"),columns=['w','y','z'])
print(df)
df.loc['r']=[12,13,15]
print(df)



out：
   w   y   z
a  0   1   2
b  3   4   5
c  6   7   8
d  9  10  11
    w   y   z
a   0   1   2
b   3   4   5
c   6   7   8
d   9  10  11
r  12  13  15

3.行列删除。

Del 只能删除一列，语法：del df['column-name']
pd.drop() 可以删除多列 pd.drop(labels,axis=1, inplace=False) ，labels：行列名称列表 axis：0表示删除行(默认)，1表示删除列 , inplace：False表示源DataFrame不变（默认，True表示原DataFrame改变
pd.pop() 只能删除一列并把删除的一列赋值给新的对象。

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(40).reshape(5,8),index=list("abcde"),columns=['w','y','z',
                                                                     'l','m','n','o','p'])
print(df)
del df['w']
df.drop(labels=['y','l'],axis=1,inplace=True)
print(df)
data=df.pop('n')
print(df)
print(data)


out：
    w   y   z   l   m   n   o   p
a   0   1   2   3   4   5   6   7
b   8   9  10  11  12  13  14  15
c  16  17  18  19  20  21  22  23
d  24  25  26  27  28  29  30  31
e  32  33  34  35  36  37  38  39
    z   m   n   o   p
a   2   4   5   6   7
b  10  12  13  14  15
c  18  20  21  22  23
d  26  28  29  30  31
e  34  36  37  38  39
    z   m   o   p
a   2   4   6   7
b  10  12  14  15
c  18  20  22  23
d  26  28  30  31
e  34  36  38  39
a     5
b    13
c    21
d    29
e    37
Name: n, dtype: int32

重复值删除。
- 重复值查看 duplicated(subset=None, keep='first’) ，Subset 是否只需要检查某几列 KeepFirst：支持从前向后，将后出现的相同行判断为重复值，Last：和从后向前
- 重复值删除 drop_duplicates(subset=None, keep=’first’, inplace=False）

import pandas as pd
import numpy as np
data=pd.DataFrame({'qu1':[1,3,4,3,4],
                   'qu2':[1,3,4,3,4],
                   'qu3':[1,3,2,3,3]})
print(data)
print(data.duplicated(keep='first'))
print(data.duplicated(keep='last'))
print(data.drop_duplicates())



out:
   qu1  qu2  qu3
0    1    1    1
1    3    3    3
2    4    4    2
3    3    3    3
4    4    4    3
0    False
1    False
2    False
3     True
4    False
dtype: bool
0    False
1     True
2    False
3    False
4    False
dtype: bool
   qu1  qu2  qu3
0    1    1    1
1    3    3    3
2    4    4    2
4    4    4    3

4.改变索引。

索引的不可变性，不能对索引的某个值直接进行修改。
整体重命名 pd.index =， pd.columns =

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(40).reshape(5,8),index=list("abcde"),columns=['w','y','z',
                                                                     'l','m','n','o','p'])
print(df.index)
print(df.columns)
df.index='new_'+df.index
df.columns='new'+df.columns
print(df.index)
print(df.columns)


out：
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Index(['w', 'y', 'z', 'l', 'm', 'n', 'o', 'p'], dtype='object')
Index(['new_a', 'new_b', 'new_c', 'new_d', 'new_e'], dtype='object')
Index(['neww', 'newy', 'newz', 'newl', 'newm', 'newn', 'newo', 'newp'], dtype='object')

行列同时修改 rename(index=None, columns=None, **kwargs) ，index：修改行索引名称，dict示例为{‘oldname’:‘newname’, ...} ，columns：修改列索引名称 inplace : boolean, default False(生成新对象) ，copy：inplace为False时生效，表示是否为新对象创建新的存储位置，否则只是生成元数据(行列索引)


import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(40).reshape(5,8),index=list("abcde"),columns=['w','y','z',
                                                                     'l','m','n','o','p'])
print(df.index)
print(df.columns)
df.rename(index={'a':'a1','b':'b1'},columns={'w':'w1','l':'l1'},inplace=True)
print(df.index)
print(df.columns)



out：

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
Index(['w', 'y', 'z', 'l', 'm', 'n', 'o', 'p'], dtype='object')
Index(['a1', 'b1', 'c', 'd', 'e'], dtype='object')
Index(['w1', 'y', 'z', 'l1', 'm', 'n', 'o', 'p'], dtype='object')

同时调整行或者列 reindex(index=None, columns=None, **kwargs) ，index：调整后的行索引名称列表，columns：调整后的列索引名称列表，fill_value：出现新的索引时默认的，method = ffill ffill/pad 前向填充，bfill/backfill 后向填充。

# series reindex
data1 = pd.Series(np.arange(4), index=list('ABCD'))
print(s1)
'''
A    1
B    2
C    3
D    4
dtype: int64
'''


# 重新指定 index， 多出来的index，可以使用fill_value 填充
print(s1.reindex(index=['A', 'B', 'C', 'D', 'E'], fill_value = 10))
'''
A     1
B     2
C     3
D     4
E    10
dtype: int64
'''

s2 = Series(['A', 'B', 'C'], index = [1, 5, 10])
print(s2)
'''
1     A
5     B
10    C
dtype: object
'''

# 修改索引，
# 将s2的索引增加到15个
# 如果新增加的索引值不存在，默认为 Nan
print(s2.reindex(index=range(15)))
'''
0     NaN
1       A
2     NaN
3     NaN
4     NaN
5       B
6     NaN
7     NaN
8     NaN
9     NaN
10      C
11    NaN
12    NaN
13    NaN
14    NaN
dtype: object
'''

# ffill ： foreaward fill 向前填充，
# 如果新增加索引的值不存在，那么按照前一个非nan的值填充进去
print(s2.reindex(index=range(15), method='ffill'))
'''
0     NaN
1       A
2       A
3       A
4       A
5       B
6       B
7       B
8       B
9       B
10      C
11      C
12      C
13      C
14      C
dtype: object
'''

# reindex dataframe
df1 = DataFrame(np.random.rand(25).reshape([5, 5]), index=['A', 'B', 'D', 'E', 'F'], columns=['c1', 'c2', 'c3', 'c4', 'c5'])
print(df1)
'''
         c1        c2        c3        c4        c5
A  0.700437  0.844187  0.676514  0.727858  0.951458
B  0.012703  0.413588  0.048813  0.099929  0.508066
D  0.200248  0.744154  0.192892  0.700845  0.293228
E  0.774479  0.005109  0.112858  0.110954  0.247668
F  0.023236  0.727321  0.340035  0.197503  0.909180
'''

# 为 dataframe 添加一个新的索引
# 可以看到 自动 扩充为 nan
print(df1.reindex(index=['A', 'B', 'C', 'D', 'E', 'F']))
''' 自动填充为 nan
         c1        c2        c3        c4        c5
A  0.700437  0.844187  0.676514  0.727858  0.951458
B  0.012703  0.413588  0.048813  0.099929  0.508066
C       NaN       NaN       NaN       NaN       NaN
D  0.200248  0.744154  0.192892  0.700845  0.293228
E  0.774479  0.005109  0.112858  0.110954  0.247668
F  0.023236  0.727321  0.340035  0.197503  0.909180
'''

#　扩充列，　也是一样的
print(df1.reindex(columns=['c1', 'c2', 'c3', 'c4', 'c5', 'c6']))
'''
         c1        c2        c3        c4        c5  c6
A  0.700437  0.844187  0.676514  0.727858  0.951458 NaN
B  0.012703  0.413588  0.048813  0.099929  0.508066 NaN
D  0.200248  0.744154  0.192892  0.700845  0.293228 NaN
E  0.774479  0.005109  0.112858  0.110954  0.247668 NaN
F  0.023236  0.727321  0.340035  0.197503  0.909180 NaN
'''

# 减小 index
print(s1.reindex(['A', 'B']))
''' 相当于一个切割效果
A    1
B    2
dtype: int64
'''

print(df1.reindex(index=['A', 'B']))
''' 同样是一个切片的效果
         c1        c2        c3        c4        c5
A  0.601977  0.619927  0.251234  0.305101  0.491200
B  0.244261  0.734863  0.569936  0.889996  0.017936
————————————————

5.数据排序。

索引排序。pd.sort_index(axis=1, ascending=False, inplace=True)

import pandas as pd


import numpy as np

df=pd.DataFrame(np.arange(9).reshape(3,3),index=list("acb"),columns=['w','m','z',])
print(df)
df.sort_index(axis=0,ascending=True,inplace=True)
print(df)


out：
   w  m  z
a  0  1  2
c  3  4  5
b  6  7  8
   w  m  z
a  0  1  2
b  6  7  8
c  3  4  5

df.sort_index(axis=1,ascending=True,inplace=True)
print(df)


out:
   m  w  z
a  1  0  2
c  4  3  5
b  7  6  8

列值排序。pd.sort_values(by='b', ascending=False, inplace=True)

import pandas as pd
import numpy as np
data=pd.DataFrame({'qu1':[1,7,41,3,4],
                   'qu2':[1,9,4,37,4],
                   'qu3':[1,12,25,3,37]})
print(data)
data.sort_values(by='qu1',ascending=True,inplace=True)
print(data)


out：
   qu1  qu2  qu3
0    1    1    1
1    7    9   12
2   41    4   25
3    3   37    3
4    4    4   37
   qu1  qu2  qu3
0    1    1    1
3    3   37    3
4    4    4   37
1    7    9   12
2   41    4   25

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析之pandas

python

数据分析

pandas

pandas基础入门之数据修改与基本运算的相关文章

隐藏控制台并执行 python 脚本

我正在尝试使用 pyinstaller 在 Windows 10 上使用 pyqt5 模块编译在 python 3 中构建的 python 脚本该脚本在运行时隐藏窗口为了编译我的脚本我执行了以下命令 pyinstaller onefi
如何在cvxpy中编写多个约束？

我想在 cvxpy 下的优化问题中添加许多约束在 matlab 中我可以通过添加一行 subject to 然后使用 for 循环来生成约束我怎样才能在 cvxpy 中做同样的工作因为 cvxpy 中没有服从概念有什么建议吗
通过 pyodbc 连接到 Azure SQL 数据库

我使用 pyodbc 连接到本地 SQL 数据库该数据库工作正常 SQLSERVERLOCAL Driver SQL Server Native Client 11 0 Server localdb v11 0 integrated se
Python - 使用 win32com.client 将 Excel 单元格范围格式化为表格

我正在尝试编写一个函数该函数选择工作表中的所有非空单元格根据内容调整列宽并将其格式化为表格我被困在最后一点这是我当前的代码 import win32com client from win32com client import co
VSCode Jupyter Notebook - 恢复缓存版本

我正在使用在 Ubuntu 19 10 上运行的 VSCode v 1 48 0 创建一个 Jupyter Notebook VSCode 崩溃了不幸的是我没有保存笔记本当我重新启动时它是空的我已经能够在 config Code Us
可重用的 Tensorflow 卷积网络

我想重用来自Tensorflow 专业人士的 MNIST CNN 示例 http www tensorflow org tutorials mnist pros index md 我的图像尺寸为 388px X 191px 只有 2 个输出
python中remove方法的安全使用

我从列表继承了一个 UserList 类并实现了以下方法来删除标记为已删除的条目 def purge deleted self for element in list iter self if ele mark deleted lt 1 s
在Python中随机化列表[重复]

这个问题在这里已经有答案了我想知道是否有一个好方法来震动 Python 中的项目列表例如 1 2 3 4 5 可能会被动摇随机化 3 1 4 2 5 任何顺序都同样可能 from random import shuffle list
Python 对象属性 - 访问方法

假设我有一个具有某些属性的类在 Pythonic OOP 中如何访问这些属性是最好的就像obj attr 或者也许编写 get 访问器此类事物可接受的命名风格是什么 Edit 您能否详细说明使用单下划线或双前导下划线命名属性的最佳实
将 Matlab MEX 文件中的函数直接嵌入到 Python 中

我正在使用专有的 Matlab MEX 文件在 Matlab 中导入一些仿真结果当然没有可用的源代码 Matlab 的接口实际上非常简单因为只有一个函数返回一个 Matlab 结构体我想知道是否有任何方法可以直接从Python调用M
使用 pythons strftime 显示日期，例如“5 月 5 日”？ [复制]

这个问题在这里已经有答案了可能的重复 Python 日期顺序输出 https stackoverflow com questions 739241 python date ordinal output 在Python中 time strf
调试 python Web 服务

我正在使用找到的说明here http www diveintopython net http web services user agent html 尝试检查发送到我的网络服务器的 HTTP 命令但是我没有看到按照教程中的建议在控制
带回溯的 Dijkstra 算法？

In a 相关主题 https stackoverflow com questions 28333756 finding most efficient path between two nodes in an interval graph
如何从 Selenium 获取元素的属性

我正在 Python 中使用 Selenium 我想得到 val of a
如何点击 Google Trends 中的“加载更多”按钮并通过 Selenium 和 Python 打印所有标题

这次我想单击一个按钮来加载更多实时搜索这是网站的链接该按钮位于页面末尾代码如下 div class feed load more button Load more div 由于涉及到一些 AngularJS 我不知道该怎么做有什么提
计算素数并附加到列表

我最近开始尝试使用 python 解决 Euler 项目的问题并且在尝试计算素数并将其附加到列表中时遇到了这个障碍我编写了以下代码但我很困惑为什么它在运行时不输出任何内容 import math primes def isPrime
Tensorflow：提要字典错误：您必须为占位符张量提供值

我有一个错误我无法找出原因这是代码 with tf Graph as default global step tf Variable 0 trainable False images tf placeholder tf float32
是否可以使用 Python 中的密码安全地加密然后解密数据？

我在 python 程序中有一些数据我想在使用密码写入文件之前对其进行加密然后在使用它之前读取并解密它我正在寻找一些可以根据密码进行加密和解密的安全对称算法这个问题 https stackoverflow com questions
Windows 10 上的 Tensorflow 安装问题

我正在尝试在 Win 10 计算机上安装 Tensorflow 我成功安装了Python 3 7 然后尝试按照tensorflow org上的安装说明进行操作执行时 pip install tensorflow 我收到以下错误消息错误
mypy 错误：赋值中的类型不兼容（表达式的类型为“Dict[, ]”，目标的类型为“List[str]”）

我尝试过了实例化一个空字典在现有字典的第二层上然后为其分配一个键值对但 MyPy 会抛出错误这是一个最小的示例当激活 MyPy 检查时它将重现它 result Test something result key result key

随机推荐

Redis——初识Redis

Redis简介 Redis的数据结构致力于帮助用户解决问题而不是像关系型数据库那样要求用户扭曲问题来适应数据库除此之外通过复制持久化和客户端分片 client side sharding 等特性用户可以很方便的将Redis扩展成
基于Qt的OpenGL编程（3.x以上GLSL可编程管线版）---(二十八)Gamma校正

Vries的教程是我看过的最好的可编程管线OpenGL教程没有之一其原地址如下 https learnopengl cn github io 05 20Advanced 20Lighting 01 20Advanced 20Lighti
编写一个golang websocket示例

示例代码创建一个websocket对象 var ws websocket Dial ws localhost 8000 echo http localhost 发送消息 if err ws Send byte hello world er
Latex编译中文出现的问题

Latex编译中文出现的问题记录一下使用latex编译中文遇到的一些问题本文是在win11系统下使用的TexStudio MikTex组合编译使用的是pdfLatex 编辑器的设置首先会发现编辑器中的中文字符全是乱码这时在Te
应用于标签的伪类选择器（link、visited、active、hover）

CSS3根据选择符的用途可以把选择器分为标签选择器类选择器 ID选择器全局选择器组合选择器继承选择器和伪类选择器等伪类选择符定义的样式最常应用于 a 标签上它表示4种不同的状态 link 未访问链接 visited 已访问链接
GnuWin32的安装与使用

使用过Linux的伙计估计都会喜欢上linux各种各样强大的命令如 find vim cp mv wget curl grep ls等等而GnuWin32使windows用户可以在命令行窗口中使用各种各样的linux命令就跟使用普通的w
lighttpd不支持Expect: 100-continue的解决办法

由于lighttpd1 4 21之前的版本不支持Expect 100 continue 所以有可能访问出现 HTTP 1 1 417 Expectation Failed 等错误提示搜集整理了很多解决方法如下 1 升级到 lighttp
Chrome：将禁用修改document.domain以放宽同源策略

你好我是tiantian 几天前 Chrome developer 博客发布了这么一篇文章大致意思是 Chrome未来将禁用修改document domain 如果你的网站依赖于设置document domain 来解决跨域的问题那么
ubuntu安装elasticsearch和head插件（所有可能出现的问题解决）超详细

一单例安装首先去官网 elastic co 下载tar gz的压缩包或者使用命令行下载 wget https artifacts elastic co downloads elasticsearch elasticsearch 6 7
当鼠标光标放在一张图片上，如何显示另一张图片？

我们会遇到一种情境这种情境是当正常打开一个页面有文字配有图片可是当鼠标的光标移动到这张图片上时会显示另一张图片这种效果应该怎么做在学习html和css阶段的程序员我们可以使用hover来对图片进行处理 hover的基本意思为选
【c语言】两个栈实现一个队列

两个栈实现一个队列核心思想模拟出队列先进先出的数据结构假设有两个栈input和output input模拟栈的数据插入当需要模拟出队列操作时 input栈中的A B C D会按照D C B A的顺序进入栈output 只要outpu
TensorRT部署（图像分类）之engine生成及反序列化推理（第二讲）

1 日志文件类创建 class TRTLogger public nvinfer1 ILogger public virtual void log Severity severity nvinfer1 AsciiChar const msg
adams怎么打开自带模型_少了这套Enscape专属模型库，你装的Enscapen废了一半

文末领取此套Enscape离线资源库真实植物 Enscape 我们一直都在用大家也都很熟悉而且Enscape作为渲染界的劳模几乎可以保持月更的节奏其操作简单容易上手渲染真实越来越多的被使用虽然Enscape很好用比Lumi
SAP MM学习笔记17-在库品目评价中的标准原价 S 和移动平均价格 V

SAP中有2种价格标准原价 S 和移动平均价格 V 1 标准原价 S 2 移动平均价格 V 在MM03 会计1 Tab中现行评价区域中有原价管理区分比如下面这个物料 100 100 它的原价管理区分是 S 它的合计额就是标准原
getch()、_sleep() 函数的正确用法

前段时间由于需要写了一段代码用到了函数 getch 但是当时出错了提示该标识符未被定义一时无解后来又有一个朋友问我怎么将一个字符串中的字符以一种动态的方式进行输出我当时告诉他的是使用 sleep 函数也没有细想后来发现根
反汇编之thiscall约定

thiscall是C 中的非静态类成员函数的默认调用约定对象的每个函数隐含接收this参数采用thiscall约定时函数的参数按照从右到左的顺序入栈被调用的函数在返回前清理传送参数的栈 include
jetson orin+livox mid-70+imu+云台相机联合标定和数据采集

将之前无人机上的x86多源数据采集和联合标定算法重建在新板子jetson orin上解决之前多传感器采集数据时间戳没对齐的问题 1 准备工作安装ros环境推荐小鱼 http fishros com fish home 大佬的包避免了自
王昊奋：大规模知识图谱技术

主讲嘉宾王昊奋主持人阮彤承办中关村大数据产业联盟嘉宾简介王昊奋华东理工大学讲师上海交通大学计算机应用专业博士对语义搜索图数据库以及Web挖掘与信息抽取有浓厚的兴趣在博士就读期间发表了30余篇国际顶级会议和期刊论文长
TCP&UDP测试工具的使用

一 TCP服务测试 1 在电脑上打开测试工具 2 该测试工具分为客户端和服务器两类首先创建一个服务端 3 默认端口号点击确定 4 点击启动服务器此时我们可以通过外部客户端与该服务器相连 5 在此我们重新打开一次软件模拟客户端并与服务
pandas基础入门之数据修改与基本运算

1 数据复制直接赋值直接赋值的话只是复制的元数据行列索引但是元素还是存储在相同内存位置对元素进行修改会影响另外一个 import pandas as pd import numpy as np df pd DataFrame n