(五)pandas-修改数据

2023-11-03

pandas修改数据可以通过以下几种方式：

1、通过切片定位到数据位置，然后直接赋值

2、mask/where 两个函数

3、replace函数

4、apply函数

以下图df为例：

1、切片方式

切片方式用于通过下标/标签直接定位到指定位置，然后修改数据

import numpy
import pandas as pd

scores = [23, 88, 12], [99, 88, 100], [44, 77, 68], [44, 77, 68]
df = pd.DataFrame(scores, index=['张三', '李四', '王五', "赵六"], columns=['语文', '数学', '英语'])

# 将张三的语文成绩改为100
df["语文"]["张三"] = 100
df.iloc[0, 0] = 100
df.loc["张三", "语文"] = 100

2、mask/where函数

mask()和where()参数相同，作用相反

mask()会把条件成立的数据改为替换数据

where()会把条件不成立的数据改为替换数据

mask()和where()是通过遍历数据源，把符合条件的数据替换为指定数据

import numpy
import pandas as pd

scores = [23, 88, 12], [99, 88, 100], [44, 77, 68], [44, 77, 68]
df = pd.DataFrame(scores, index=['张三', '李四', '王五', "赵六"], columns=['语文', '数学', '英语'])

# 把大于80的语文成绩都改成100
df["语文"].mask(df["语文"] > 80, 100, inplace=True)
# 把小于80的语文成绩都改成100
df["语文"].where(df["语文"] > 80, 100, inplace=True)

3、replace函数

replace()函数的功能很全面，用法很多，这里只是简单介绍一下，详细了解最好查看官网文档

import numpy
import pandas as pd

scores = [23, 88, 12], [99, 88, 100], [44, 77, 68], [44, 77, 68]
df = pd.DataFrame(scores, index=['张三', '李四', '王五', "赵六"], columns=['语文', '数学', '英语'])

# 将所有人的语文成绩是23的改成90
df.replace({"语文": {
     23: 90
 }}, inplace=True)

# 将所有成绩中的77改成99
df.replace(77, 99, inplace=True)
# 将王五的44分都替换成90分
df.loc["王五"].replace(44, 90, inplace=True)

4、apply函数

把df的每一行/列应用到指定的函数之上

def apply(self,
          func: (...) -> Any | str | list[(...) -> Any | str] | dict[Hashable, (...) -> Any | str | list[(...) -> Any | str]],
          axis: Literal["index", "columns", "rows"] | int = 0,
          raw: bool = False,
          result_type: Literal["expand", "reduce", "broadcast"] | None = None,
          args: tuple = (),
          **kwargs: Any)
把dataframe拆分成一个个的Series，然后依次以Series作为参数来调用func
func:
    · 应用的函数，固定接收一个Series作为第一个参数，若有其他参数可通过args和kwargs传递

axis:
    · 控制是按行还是列来拆分
    0 or 'index': 按列来拆分
    1 or 'columns': 按行来拆分

import pandas as pd

def modify_score(df):
    # 把所有人的语文都改成100分
    df["语文"] = 100

scores = [23, 88, 12], [99, 88, 100], [44, 77, 68], [44, 44, 44]
df = pd.DataFrame(scores, index=['张三', '李四', '王五', "赵六"], columns=['语文', '数学', '英语'])

df.apply(modify_score, axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

(五)pandas-修改数据的相关文章

如何使用 pandas 对一系列值进行编码

我有一个 pandas 数据框并且有一列age 我想将其编码为按特定范围分隔的分类值例如 15岁以下的年龄应为0 15到30之间的年龄应更改为1等等我找到了这种方法来做到这一点在经历了关于使用的巨大困惑之后 and and age X
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
在 Python 中使用 mca 包

我正在尝试使用MCA 套餐 https github com esafak mca blob master docs usage rst在Python中进行多重对应分析我对如何使用它有点困惑和PCA我希望fit一些数据即找到这些数据的
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
一列中唯一对的数量 - pandas

我在为 pandas 中的数据框生成统计数据时遇到了一些问题我的数据框如下所示我省略了索引 id type 1 A 2 B 3 A 1 B 3 B 2 C 4 B 4 C 各有什么重要的id有两个type分配的值如上例所示我想数一数
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
两个 pandas 列的字符串连接

我有一个关注者DataFrame from pandas import df DataFrame foo a b c bar 1 2 3 它看起来像这样 bar foo 0 1 a 1 2 b 2 3 c 现在我想要这样的东西 bar 0
Pandas 数据框到 Excel 工作表

我有一个包含 5 个工作表的 Excel 文件 xls 格式我想用 pandas 数据框的内容替换第 5 个工作表的内容根据您的上述需求您将需要使用 Python 导出 pandas 数据框和 VBA 删除现有工作表内容并复制粘贴
如何按升序或降序对 Seaborn 条形图进行排序 [重复]

这个问题在这里已经有答案了 EXCEL 文件包含有关 7000 个 Apple App store 的信息如下所示这是我的代码 gt import seaborn as sns import matplotlib pyplot as p
Pandas 数据帧中任意两连续行之间差异的平均值

我有一个数据框 name date quantity A 2016 12 02 20 A 2016 12 04 5 A 2016 11 30 10 B 2016 11 30 10 我想做的是计算对于任何一对连续的名称的日期按时间顺序连续
Pandas hub_table 更快的替代品

我正在使用熊猫pivot table在大型数据集 1000 万行 6 列上运行由于执行时间至关重要因此我尝试加快流程目前处理整个数据集大约需要 8 秒这太慢了我希望找到替代方案来提高速度性能我当前的 Pandas 数据透视
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch

随机推荐

CodeCounter

package cn zzsxt io2 import java io BufferedReader import java io File import java io FileReader import java io IOExcept
老猿学5G扫盲贴：3GPP中的5G计费架构

专栏 Python基础教程目录专栏使用PyQt开发图形界面Python应用专栏 PyQt入门学习老猿Python博文目录老猿学5G博文目录一计费逻辑架构和信息流在32240子系列文档内定义了计费的逻辑架构和信息流如图上图
使用HttpClient为GET/POST请求获取数据 -- 信任证书 SS连接

使用HttpClient为GET POST请求获取数据信任证书 SS连接依赖部分使用GET请求获取数据使用POST 请求 Form 表单格式请求获取数据使用POST 请求 Body 格式请求获取数据公共部分执行http请求信
random 与 range

random方法 random randint 1 5 会生成一个1 5之间的任一个整数包括1和5 random random 会随机生成0 1的浮点数 random choice list 会从list中随机选出一个值 range方法
使用Edge调试安卓app应用或插件

Edge调试安卓手机 1 1 找到开发者模式打开 USB 调试 1 2 找条数据线连上电脑 PC 打开 edge 2 1 打开 URL edge inspect devices 2 2 等待手机和 edge 响应然后出现页面后点击
SQL练习

学生选课表的50个SQL语句 1 查询001课程比002课程成绩高的所有学生的学号 select a s id from select s id score from sc where c id 001 a select s id scor
python自动化办公（三十二）pyinstaller.exe打包成exe程序，运行后ModuleNotFoundError或FileNoFounderError:no such file or **

目录一打包Tkinter 二下载pyinstaller 三 pycharm终端运行pyinstaller 四 pyinstaller exe直接运行Cmd命令打包
Docker中web项目的部署以及访问

1 将应用打包成demo war 2 编写Dockerfile 构建镜像 Dockerfile FROM 包含tomcat的基础镜像 COPY demo war usr local tomcat webapps COPY apple app
八皇后[n皇后]问题 python 算法的理解

八皇后 n皇后问题表述为在8 8格的国际象棋上摆放8个皇后使其不能互相攻击即任意两个皇后都不能处于同一行同一列或同一斜线上问有多少种摆法答案是92种可以看看遍历过程方便理解对于递归queen A cur 1 的理解 cu
vue根据路由隐藏侧边栏

项目要求某模块显示侧边栏某模块隐藏侧边栏所有模块统一引用了一个layout组件所以在路由里设置一个自定义属性在layout组件里监听路由判断自定义属性值来隐藏侧边栏 An highlighted block path equipm
macos配置vscode支持c++11/17标准

目录简介需求步骤步骤1 步骤2 步骤3 步骤4 步骤5 结语简介 Hello 非常感谢您阅读海轰的文章倘若文中有错误的地方欢迎您指出昵称海轰标签程序猿 C 选手学生简介因C语言结识编程随后转入计算机专业获得过
Looper和Handler

Looper用于在android线程中进行消息处理默认情况下一个线程并不和任何Looper绑定当我们调用Looper prepare 时如果当前线程还没有和任何Looper绑定那么将创建一个Looper让它和当前线程绑定当我们调
Mysql数据库简单配置

1 将安装包下载到本地文件路径按照自己的情况 2 配置ini文件放在mysql安装目录没有文件名解决方法 3 终端切换目录到安装目录下的bin目录下建议配置环境变量后面直接通过命令开启服务直接双击path也可以进入然后点击新
module “**.vue“ has not default

module vue has not default 这个问题造成的原因是因为你在vue config js中设置了happyPackMode选项如下所示 config module rule ts use ts loader loade
初识注解

注解的英文单词 Annotation 3 有一个public修饰的入口 4 且该public修饰的类名必须与文件名相同 5 并且一个源文件可以只有非public类 package com kuang Annotation 测试元注解 im
用一个函数实现用选择法对5个整数按升序排序

用一个函数实现用选择法对5个整数按升序排序选择法思想先选出5个数中最小的数把它和score 0 交换这样a 0 就是5个数中最小的数了再在剩下4个数 score 1 到score 4 中选出最小的数把它和score 1 交换这
kafka基本知识

kafka 消息队列是什么解决什么样的问题有什么常见的应用场景 MQ message queue 消息队列是本质上是队列先进先出的数据结构生产者将消息放到队列上消费者通过消息的消费者通过拉取或者订阅推送的机制来获取消息解决的问
梯度消失和梯度爆炸及解决方法

原文链接感谢原作者一为什么会产生梯度消失和梯度爆炸目前优化神经网络的方法都是基于BP 即根据损失函数计算的误差通过梯度反向传播的方式指导深度网络权值的更新优化其中将误差从末层往前传递的过程需要链式法则 Chain Rule 的帮
Python读写EXCEL文件常用方法

python读写excel的方式有很多不同的模块在读写的讲法上稍有区别这里我主要介绍几个常用的方式用xlrd和xlwt进行excel读写用openpyxl进行excel读写用pandas进行excel读写一数据准备为了方便演
(五)pandas-修改数据

pandas修改数据可以通过以下几种方式 1 通过切片定位到数据位置然后直接赋值 2 mask where 两个函数 3 replace函数 4 apply函数以下图df为例 1 切片方式切片方式用于通过下标标签直接定位到指定位置

(五)pandas-修改数据

1、切片方式

2、mask/where函数

3、replace函数

4、apply函数

(五)pandas-修改数据 的相关文章

随机推荐

热门标签

(五)pandas-修改数据的相关文章