布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

2024-05-28

隐式索引匹配pandas用于不同之间的操作DataFrame/Series很棒，而且大多数时候，它都有效。

但是，我偶然发现了一个无法按预期工作的示例：

import pandas as pd # 0.21.0
import numpy as np # 1.13.3
x = pd.Series([True, False, True, True], index = range(4))
y = pd.Series([False, True, True, False], index = [2,4,3,5])

# logical AND: this works, symmetric as it should be
pd.concat([x, y, x & y, y & x], keys = ['x', 'y', 'x&y', 'y&x'], axis = 1)
#        x      y    x&y    y&x
# 0   True    NaN  False  False
# 1  False    NaN  False  False
# 2   True  False  False  False
# 3   True   True   True   True
# 4    NaN   True  False  False
# 5    NaN  False  False  False

# but logical OR is not symmetric anymore (same for XOR: x^y vs. y^x)
pd.concat([x, y, x | y, y | x], keys = ['x', 'y', 'x|y', 'y|x'], axis = 1)
#        x      y    x|y    y|x
# 0   True    NaN   True  False <-- INCONSISTENT!
# 1  False    NaN  False  False
# 2   True  False   True   True
# 3   True   True   True   True
# 4    NaN   True  False   True <-- INCONSISTENT!
# 5    NaN  False  False  False

经过一番研究，我发现了两点似乎相关：

bool(np.nan) equals True, cf. https://stackoverflow.com/a/15686477/2965879 https://stackoverflow.com/a/15686477/2965879
|决心np.bitwise_or，而不是np.logical_or, cf. https://stackoverflow.com/a/37132854/2965879 https://stackoverflow.com/a/37132854/2965879

但最终，最令人兴奋的似乎是熊猫确实从nan to False 在某一点。看了上面的内容，似乎出现了这种情况after呼叫np.bitwise_or，虽然我认为这应该发生before?

特别是，使用np.logical_or没有帮助，因为它错过了索引对齐pandas是的，而且我也不想要np.nan or False等于True。（换句话说，答案https://stackoverflow.com/a/37132854/2965879 https://stackoverflow.com/a/37132854/2965879没有帮助。）

我认为如果提供了这个美妙的语法糖，它应该尽可能一致*，所以|应该是对称的。当总是对称的东西突然不再对称时，调试真的很难（正如我所经历的那样）。

*即使德摩根定律失效，无论如何 -~(x&y)不能完全匹配~y|~x因为 NaN 仅出现在索引对齐处（因此不受先前否定的影响）。

在对 pandas 进行了一些探索之后，我发现有一个函数叫做pandas.core.ops._bool_method_SERIES这是包装 Series 对象的布尔运算符的几个工厂函数之一。

>>> f = pandas.Series.__or__
>>> f #the actual function you call when you do x|y
<function _bool_method_SERIES.<locals>.wrapper at 0x107436bf8>
>>> f.__closure__[0].cell_contents
    #it holds a reference to the other function defined in this factory na_op
<function _bool_method_SERIES.<locals>.na_op at 0x107436b70>
>>> f.__closure__[0].cell_contents.__closure__[0].cell_contents
    #and na_op has a reference to the built-in function or_
<built-in function or_>

这意味着我们理论上可以定义自己的方法来执行逻辑或正确的逻辑，首先让我们看看它实际上会做什么（请记住，如果无法执行操作，则运算符函数预计会引发 TypeError ）

def test_logical_or(a,b):
    print("**** calling logical_or with ****")
    print(type(a), a)
    print(type(b), b)
    print("******")
    raise TypeError("my_logical_or isn't implemented")

#make the wrapper method
wrapper = pd.core.ops._bool_method_SERIES(test_logical_or, None,None)
pd.Series.logical_or = wrapper #insert method


x = pd.Series([True, False, True, True], index = range(4))
y = pd.Series([False, True, True, False], index = [2,4,3,5])

z = x.logical_or(y) #lets try it out!

print(x,y,z, sep="\n")

当它运行时（至少对于 pandas vs 0.19.1）

**** calling logical_or with ****
<class 'numpy.ndarray'> [True False True True nan nan]
<class 'numpy.ndarray'> [False False False  True  True False]
******
**** calling logical_or with ****
<class 'bool'> True
<class 'bool'> False
******
Traceback (most recent call last):
   ...

所以看起来它试图用两个 numpy 数组调用我们的方法，无论出于何种原因，第二个数组具有nan值已替换为False但不是第一个，这可能是我们对称性破缺的原因。然后当失败时它再次尝试我会假设元素明智。

因此，为了使其正常工作，您至少可以显式检查两个参数是否都是 numpy 数组，尝试转换所有nan第一个到的条目False then return np.logical_or(a,b)。我假设如果出现其他情况，我们只会提出错误。

def my_logical_or(a,b):
    if isinstance(a, np.ndarray) and isinstance(b, np.ndarray):
        a[np.isnan(a.astype(float))] = False
        b[np.isnan(b.astype(float))] = False
        return np.logical_or(a,b)
    else:
        raise TypeError("custom logical or is only implemented for numpy arrays")

wrapper = pd.core.ops._bool_method_SERIES(my_logical_or, None,None)
pd.Series.logical_or = wrapper


x = pd.Series([True, False, True, True], index = range(4))
y = pd.Series([False, True, True, False], index = [2,4,3,5])

z = pd.concat([x, y, x.logical_or(y), y.logical_or(x)], keys = ['x', 'y', 'x|y', 'y|x'], axis = 1)
print(z)
#        x      y    x|y    y|x
# 0   True    NaN   True   True
# 1  False    NaN  False  False <-- same!
# 2   True  False   True   True
# 3   True   True   True   True
# 4    NaN   True   True   True <-- same!
# 5    NaN  False  False  False

所以这可能是你的解决方法，我不建议修改Series.__or__因为我们不知道还有谁会使用它，并且不想破坏任何期望默认行为的代码。

或者，我们可以修改源代码pandas.core.ops943线 https://github.com/pandas-dev/pandas/blob/master/pandas/core/ops.py#L943填写NaN值为 False（或 0）的self在相同的它的方式other https://github.com/pandas-dev/pandas/blob/master/pandas/core/ops.py#L939，所以我们要改变这一行：

    return filler(self._constructor(na_op(self.values, other.values),
                                    index=self.index, name=name))

to use filler(self).values代替self.values:

    return filler(self._constructor(na_op(filler(self).values, other.values),
                                    index=self.index, name=name))

这也解决了这个问题or and xor不对称，但是，我不会推荐这样做，因为它可能会破坏其他代码，我个人对 pandas 没有足够的经验来确定这在不同情况下会发生什么变化。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

布尔 pandas 之间的操作对称性破缺。具有不等索引的系列的相关文章

Python Camelot无边框表格提取问题

我正在努力从 pdf 文件中提取一些无边框表格如下图所示我已经安装了 python camelot 如图所示here https github com socialcopsdev camelot并且仅适用于有边框的表格请参阅以下详细信
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Facebook Messenger 机器人的日期选择器 webview - 无法将字段值带回机器人的输入字段

我正在使用 Dialogflow 和 Messenger 开发聊天机器人 Webhook 是用 Python 3 x 编写的我面临着如何再次将数据从 webview 传输到信使聊天窗口以继续与用户对话的问题 Messenger 聊天机器人
Python将一个变量内的多个列表合并到一个列表中[重复]

这个问题在这里已经有答案了我很难将多个列表放入一个列表中因为它们都在一个变量内这是一个例子我拥有的 a 1 3 3 我想要的是 a 1 3 3 如何使用 Python 3 x 解决这个问题 EDIT 这是我正在处理的代码 from
Healpy：从数据到 Healpix 地图

我有一个数据网格其中行代表 theta 0 pi 列代表 phi 0 2 pi 其中 f theta phi 是该位置处暗物质的密度我想计算它的功率谱并决定使用healpy 我无法理解的是如何格式化我的数据以供healpy 使用如果有
从椭圆生成数组

我有一个方程它以一般形式 x 2 a 2 y 2 b 2 1 创建一个椭圆我希望生成一个数组其中椭圆内部的所有点都设置为 1 椭圆外部的所有点都设置为 1是零然后这个数组将与另一个数组进行卷积到目前为止我已尝试创建一个大小为空的
pandas.read_csv FileNotFoundError：尽管路径正确，但文件 b'\xe2\x80\xaa'

我正在尝试加载一个 csv文件使用pd read csv 尽管文件路径正确并且使用原始字符串但当我收到错误时函数仍会起作用 import pandas as pd df pd read csv C Users user Desktop
Python shebang 线[重复]

这个问题在这里已经有答案了我见过有些人在 env 后面加上一个空格来写 shebang 行例如 usr bin env python 这是拼写错误吗我从来不使用空格我用 usr bin env python 有人可以澄清一下吗不
如何从第二个索引开始for循环

我有这个for循环我想i in range nI 从第二个数字开始I列表你能指导我吗 I 0 1 2 3 4 5 6 nI len I for i in range nI sum 0 for v in range nV for j in
numpy polyfit 通过 0

假设我有x and y带有权重向量的向量wgt 我可以拟合三次曲线 y a x 3 b x 2 c x d 通过使用np polyfit如下 y fit np polyfit x y deg 3 w wgt 现在假设我想做另一次拟合但这
为什么安装成功后无法导入pandas？

我已经使用命令 pip3 4 install pandas 安装了 pandas Successfully installed pandas python dateutil pytz numpy six Cleaning up root h
如何在Python多处理中的所有进程之间共享数据？

我想在给定文章中搜索预定义的关键字列表如果在文章中找到关键字则分数加 1 我想使用多重处理因为预定义的关键字列表非常大 10k 个关键字文章数量为 100k 我碰到this https stackoverflow com quest
装饰器更改返回类型时键入函数

如何正确编写返回类型被装饰器修改的函数的类型简单的例子 def example decorator fn def wrapper data res fn data return join res return wrapper exampl
两个或多个数据框的完全外连接

给定以下三个 Pandas 数据框我需要像 SQL 完全外连接一样合并它们注意key是多索引的type N and id N with N 1 2 3 import pandas as pd raw data type 1 0 1 1
计算图像 (M, N) 和模板 (3, 3) 之间的平方差和以进行模板匹配的更快方法？

我正在实现一种纹理合成算法如下所示here http graphics cs cmu edu people efros research NPS alg html 为此我需要计算平方差之和这是一个估计之间误差的指标template以及
RuntimeError：尝试在 tflearn 中使用关闭的会话

我想用 tflearn 训练我的模型但出现上面显示的错误这是我的训练循环顺便说一句我将训练输入拆分为单独的 numpy 文件 for i in range EPOCHS for file in filess file np load
Pandas 删除时间范围之外的行

我试图遍历 DataFrame 索引中的每一行并删除不在特定时间之间的所有行我一直在寻找解决方案但它们都没有将日期与时间分开我想做的就是删除时间范围之外的行您可以使用between time https pandas pydata
OSError：无法打开文件（无法打开文件）

我正在尝试为我的作业加载名为 tr model h5 的预训练模型但出现以下错误 Traceback most recent call last File Trigger Project py line 84 in
嵌套生成器表达式 - 意外结果[重复]

这个问题在这里已经有答案了这是测试代码 units 1 2 tens 10 20 nums a b for a in units for b in tens units 3 4 tens 30 40 x for x in nums 假设第
ValueError：序列太大；不能大于 32

我写了这段代码 from Crypto Cipher import AES import numpy as np import cv2 base64 BLOCK SIZE 16 PADDING pad lambda s s BLOCK SI

随机推荐

如何从TableViewCell上的自定义CollectionViewCell推送VC？

我有一个tableView和细胞在细胞上我有一个collectionView并在其上显示一些内容我想发送一个有关选择的链接indexPath 我想从自定义中推送呈现我的视图CollectionViewCell这是在TableViewC
Elisp 获取函数数量？

我希望能够做到 function arity intern expt 我用谷歌搜索了这个解决方案https github com emacsmirror parser blob master parser fn el https githu
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
iOS 低内存崩溃，但内存使用率非常低

这已经困扰我很长时间了我的应用程序运行占用大约 2 74MB 内存没关系但当它创建 UIWebView 时它会增加到大约 5 87MB 并继续崩溃这些是在我的第一代 iPad 上运行时仪器中的实时字节下给出的值我找不到崩溃日志
如何使用 d3.format 获取可本地化或可定制的 si 代码

使用 SI 代码绘制图表正是我们想要的我们的 y 轴值往往是较大的货币值例如 10 411 504 201 20 缩写这个至少在美国语言环境中这应该转换为 10 4B 但是使用 d3 format 的 s 类型表示 SI 代码这将
为什么计算斐波那契数需要很长时间？

几天前我开始学习Ocaml 我尝试编写一个斐波那契数字程序 let rec fib a if a 1 a 2 then 1 else fib a 1 fib a 2 该代码不是最佳的因为我不知道如何处理异常情况但现在如果我尝试计算 f
Spring 如何在运行时获取有关“强类型集合”的泛型类型信息？

我在 Spring 3 0 文档中阅读了以下内容强类型集合仅限 Java 5 在 Java 5 及更高版本中您可以使用强类型集合使用泛型类型也就是说可以声明一个 Collection 类型使其只能包含 String 元素例如
R 条形图中的 X 轴

我想问一个关于 barplot 轴的问题首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
webjure 与 compojure？

我听说过两个基于 Clojure 的 Web 应用程序框架 Webjure 和 Compojure 有人可以告诉我哪个更好吗现在您可以添加Ring http groups google com group clojure browse t
Rails：将参数从视图传递到控制器

我在 Rails 中有以下模型 class Task lt ActiveRecord Base attr accessible description name project belongs to project validates na
htaccess 将所有子域重定向到同一目录

我希望能够将所有子域重定向到一个文件夹 RewriteCond HTTP HOST example com RewriteRule http example com subdomains 1 L P 例如如果某些访问sub1 exampl
Oracle中如何选择前100行？

我的要求是获取每个客户的最新订单然后获取前100条记录我编写了一个如下查询来获取每个客户的最新订单内部查询工作正常但我不知道如何根据结果获得前 100 名 SELECT FROM SELECT id client id ROW NU
在 Windows 上使用 C/C++ 开发时省略 msvcr100.dll？

是否可以在 Windows 上使用 C C 进行开发而不链接到 msvcr100 dll 我知道这是 Windows 的标准 c 库但我想知道如果我没有安装 Visual Studio 或 Redistributable 软件包我的计算
使用缓存时计算“页面浏览量”或“点击量”

我有一个叫做show board 在其中除其他外我增加了一个字段Board views每次运行时加 1 以计算页面浏览量问题是当我在该视图上使用 cache page 装饰器时 Board views仅在每次生成新的缓存视图时才会增加
导出socket.io时无法读取未定义的属性“socket”

我正在尝试模块化我的应用程序并希望在不同的 js 文件上向客户端发出不同的事件下面的示例代码显示将从 led js 触发事件 onlinestatus 然而我不断收到消息类型错误无法读取未定义的属性套接字每当我尝试从 led j
如果项目包含多个文件夹，如何使用 Add-Migration

我想Add Migration使用我的 DbContext 但出现错误 The term add migration is not recognized as the name of a cmdlet function script fil
如何使用 C# 将表格粘贴到 Ms-Word 文档的末尾

我有一个预制的 Word 模板其中有一个表格我想打开它然后在文档末尾添加粘贴另一个表格问题是它不会转到文档的末尾而是将新表格粘贴到原始表格的第一个单元格中任何帮助将不胜感激 previous code copied a ta
List 或其他类型上的 string.Join

我想将整数数组或列表转换为逗号分隔的字符串如下所示 string myFunction List
如何在不使用 -cp 开关的情况下在 Groovy 中自动加载数据库 jar？

我想简化调用 Oracle 数据库的 Groovy 脚本的执行如何将 ojdbc jar 添加到默认类路径以便我可以运行 groovy RunScript groovy 代替 groovy cp ojdbc5 jar RunScript
布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

隐式索引匹配pandas用于不同之间的操作DataFrame Series很棒而且大多数时候它都有效但是我偶然发现了一个无法按预期工作的示例 import pandas as pd 0 21 0 import numpy as np

布尔 pandas 之间的操作对称性破缺。具有不等索引的系列

布尔 pandas 之间的操作对称性破缺。具有不等索引的系列 的相关文章

随机推荐

热门标签

布尔 pandas 之间的操作对称性破缺。具有不等索引的系列的相关文章