Pandas - 计算所有列的 z 分数

2023-12-02

我有一个包含单列 ID 的数据框，所有其他列都是我想要计算 z 分数的数值。这是其中的一个小节：

ID      Age    BMI    Risk Factor
PT 6    48     19.3    4
PT 8    43     20.9    NaN
PT 2    39     18.1    3
PT 9    41     19.5    NaN

我的一些列包含 NaN 值，我不想将其包含在 z 分数计算中，因此我打算使用针对此问题提供的解决方案：如何使用nans对pandas列进行zscore标准化？

df['zscore'] = (df.a - df.a.mean())/df.a.std(ddof=0)

我有兴趣将此解决方案应用于除 ID 列之外的所有列，以生成新的数据框，我可以使用以下命令将其保存为 Excel 文件

df2.to_excel("Z-Scores.xlsx")

所以基本上；如何计算每列的 z 分数（忽略 NaN 值）并将所有内容推送到新的数据框中？

旁注：pandas 中有一个叫做“索引”的概念，这让我感到害怕，因为我不太理解它。如果索引是解决此问题的关键部分，请简化对索引的解释。

Using Scipy Z 分数功能：

df = pd.DataFrame(np.random.randint(100, 200, size=(5, 3)), columns=['A', 'B', 'C'])
df

|    |   A |   B |   C |
|---:|----:|----:|----:|
|  0 | 163 | 163 | 159 |
|  1 | 120 | 153 | 181 |
|  2 | 130 | 199 | 108 |
|  3 | 108 | 188 | 157 |
|  4 | 109 | 171 | 119 |

from scipy.stats import zscore
df.apply(zscore)

|    |         A |         B |         C |
|---:|----------:|----------:|----------:|
|  0 |  1.83447  | -0.708023 |  0.523362 |
|  1 | -0.297482 | -1.30804  |  1.3342   |
|  2 |  0.198321 |  1.45205  | -1.35632  |
|  3 | -0.892446 |  0.792025 |  0.449649 |
|  4 | -0.842866 | -0.228007 | -0.950897 |

如果数据框的并非所有列都是数字，那么您可以使用以下命令将 Z 分数函数仅应用于数字列：select_dtypes功能：

# Note that `select_dtypes` returns a data frame. We are selecting only the columns
numeric_cols = df.select_dtypes(include=[np.number]).columns
df[numeric_cols].apply(zscore)

|    |         A |         B |         C |
|---:|----------:|----------:|----------:|
|  0 |  1.83447  | -0.708023 |  0.523362 |
|  1 | -0.297482 | -1.30804  |  1.3342   |
|  2 |  0.198321 |  1.45205  | -1.35632  |
|  3 | -0.892446 |  0.792025 |  0.449649 |
|  4 | -0.842866 | -0.228007 | -0.950897 |

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Indexing

statistics

Pandas - 计算所有列的 z 分数的相关文章

将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
pandas DataFrame：获取上个月缺少交易且无法移位（）的值

有没有办法在不生成虚拟行的情况下实现这一点这是我的数据源 Group Store Month Revenue Group1 A 201611 10 Group1 A 201612 20 Group1 A 201701 30 Group1
检查时间戳列是否在另一个数据帧的日期范围内

我有一个数据框 df A 有两列 amin 和 amax 这是一组时间范围我的目标是查找 df B 中的列是否位于 df A amin 和 amax 列中范围的任何行之间 df A amin amax amin amax 0 2016 0
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
更改散景图中选项卡的样式

我想知道是否有办法更改散景图上生成的选项卡的属性诸如增加文本字体更改制表符宽度等更改以下是用于生成具有两个选项卡的绘图的简单代码 from bokeh models widgets import Panel Tabs from bok
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
如何在 django 中发出 post 请求后获取表单的名称？
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
在类方法 Python 中调用多处理

最初我有一个类来存储一些处理后的值并通过其他方法重用这些值问题是当我尝试将类方法划分为多个进程以加速时 python 生成了进程但它似乎不起作用正如我在任务管理器中看到的那样只有 1 个进程在运行并且结果从未传递我做了几次搜
如何使用 BeautifulSoup 只抓取可见的网页文本？

基本上我想用BeautifulSoup严格抓住可见文字在网页上例如这个网页 http www nytimes com 2009 12 21 us 21storm html是我的测试用例我主要想获取正文文章甚至可能到处都有一些选项
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
无法从 celery 信号连接到 celery 任务？

我正在尝试连接task2 from task success signal from celery signals import task success from celery import Celery app Celery app t
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
在 kivy 中嵌套小部件

我正在尝试在 kivy 中制作一个界面我认为即使在完成教程之后我仍然不了解自定义小部件以及如何对它们进行层次结构的一些基本知识我认为我有更多的盒模型 html 思维方式因此小部件嵌套在本机 GUI 中的方式对我来说仍然有点陌生一些
python生成器太慢，无法使用它。我为什么要使用它？什么时候？

最近我收到一个问题哪一个是最快的 iterator list comprehension iter list comprehension and generator 然后编写简单的代码如下 n 1000000 iter a iter ra
使用 Python PuLP 混合整数规划的时间限制

我一直在使用PuLP http pythonhosted org PuLP 解决我感兴趣的特定混合整数线性规划 MIP 但是随着问题规模的增长 PuLP 花费的时间太长我希望能够运行求解器一段时间并在需要很长时间的情况下提前终止它并
Pepper Robot：如何将 Python 地标检测移植到 Choregraphe？

我正在尝试编写一个小程序让 Pepper 通过 Choregraphe 检查房间内的地标用于地标检测的常规 Python 代码工作得很好但我无法将其移植到 Choregraphe http doc aldebaran com 2 5

随机推荐

表单获取方法：防止在查询字符串中提交空字段

我正在开发一个搜索表单搜索表单有 2 个部分首先使用一些选择输入和提交按钮进行简单搜索第二个包含许多选择复选框单选输入和提交按钮我正在使用 GET 方法因为我想要查询字符串中的所有字段 example com cars p
创建一个新分支

我想创建新分支 B 目前我有一个主分支本地和远程和功能分支 A 本地功能分支 A 已在远程删除另外我的本地功能分支中有一些已提交的文件和未暂存的文件我想去master在不丢失任何更改并创建另一个分支的情况下先提交该分支然后
在 matplotlib 轮廓图中同时使用 set_under 和 set_bad

我正在尝试生成一个 matplotlib 轮廓图其中指定值下的所有值都为白色包括零并且所有 nan 值代表缺失数据为黑色我似乎无法让 nan 值的颜色与低于零值不同问题的一个简化示例是 import numpy as np
打印到同一行时遇到问题

我正在尝试编写一个代码您在控制台中输入一个整数然后您输入的整数显示得更大由字母组成如 ascii art 所以假设输入是112 那么输出将是我的代码将具有相同的输出只是不在同一行它将在另一个数字下打印一个数字从我的代码中您可
seaborn barplot：随 x 和色调改变颜色

我的数据集包含有关决策支持模型的短期和长期影响的信息我想将其绘制在条形图中有 4 个条形模型短期模型长期模型关闭短期模型长期这是一些示例代码 df pd DataFrame columns model time val
临时容器对象上的迭代器

假设我有一个按值返回 STL 容器的函数例如 std list std list
将小部件嵌入到 QWindow 中

基本上我想使用创建一个窗口QtGui QWindow 代替QtWidgets QMainWindow 我想这样做是因为我想访问QWindow功能例如 startSystemMove setTitle setWindowStates star
WebSocket 中是否有像lastEventId 这样的数据块ID？

我使用 WebSockets 在浏览器客户端中的按钮按下事件上从服务器发送图像 WebSocket API 的 onmessage 方法接收到的图像数据是 Blob 结构分为多个块问题在于短时间内多次按下按钮事件收到的块是出故障
如何加快AMI（Amazon Machine Image）的创建速度？

AMI 创建需要long time 有没有办法让它发生得更快例如也许通过更改一些 AMI 创建设置可能涉及 IOPS 卷类型设备等我不知道如何更改这些设置或者它是否有帮助因此我不确定现阶段有什么方法可以加快 AMI 创建过程
通过 HTTP 表单上传文件，通过 MultipartEntityBuilder，带有进度条

The 简洁版本 org apache MultipartEntity已弃用其升级 MultipartEntityBuilder 在我们的在线论坛中似乎代表性不足让我们解决这个问题如何注册回调以便我的 Android 应用程序可以在
如何在Python中获取JavaScript内容

我有一个网站其中有我想要获取的存储在 JavaScript 中的数据我如何获取它代码是这样的 http pastebin com zhdWT5HM 我想从 varplayersData 行获取我想获取这个东西 playerId sh
为什么单节点集群只有一小部分可用的 cpu 配额？

pod 将不会启动因为没有可用的节点与以下所有谓词匹配 cpu 不足在上面的问题中我在开始使用 3 个容器进行部署时遇到了问题经过进一步调查似乎只有 27 的 CPU 配额可用这看起来非常低其余的 CPU 似乎分配给了一些默
如何为 Jtable 中的行添加边框？

我有一个 Jtable 我想通过向行添加边框来突出显示该行我已经延长了DefaultTableCellRenderer我认为这项工作需要在getTableCellRendererComponent method 我猜测由于似乎没有行的概
如何手动向ggplot添加图例？ - R [重复]

这个问题在这里已经有答案了我有以下情节我用来生成该图的代码是 ggplot df aes x instance y total hits geom point size 1 geom line geom line aes x df in
获取有序矩阵

我想对矩阵的值进行排序并将其从最大值转换为最小值如这个简单且可复制的示例所示 From d lt c 2 34 25 0 13 0 25 2 1 m lt matrix d 3 3 m 1 2 3 1 2 0 25 2 34 13 2 3
Android 两点之间的距离

我有 3 种计算距离的方法这 3 种方法都给了我不同的答案 double lat 6 924049 double lng 79 853807 double lat1 6 856461 double lng1 79 912748 如何计算两
如何检查对象是一个集合？ [复制]

这个问题在这里已经有答案了我在用着Set来处理我的任务但是当我调试时我得到了 mySet has不是一个函数所以我的问题是如何检查它是否是Set 就像对于Array has Array isArray obj 您可以使用实例化 le
使用 Roslyn 查找特定方法的所有方法调用

我正在使用 Roslyn 开发代码分析器我当前的任务是查找程序集中未使用的所有内部方法我从一个MethodDeclarationSyntax并从中得到符号然后我使用FindCallersAsync中的方法SymbolFinder 但即
在ggplot2中制作带有离散x轴的线图

我正在构建一个带有小平面网格的 ggplot2 图形 Y 轴是百分比 X 轴是浓度以数字表示每个方面有 3 组 0 24 和 48 小时 ggplot data MasterTable aes x Concentration y Per
Pandas - 计算所有列的 z 分数

我有一个包含单列 ID 的数据框所有其他列都是我想要计算 z 分数的数值这是其中的一个小节 ID Age BMI Risk Factor PT 6 48 19 3 4 PT 8 43 20 9 NaN PT 2 39 18 1 3 PT

Pandas - 计算所有列的 z 分数

Pandas - 计算所有列的 z 分数 的相关文章

随机推荐

热门标签

Pandas - 计算所有列的 z 分数的相关文章