pandas dataframe 视图与复制，我如何区分？

2024-04-28

有什么区别：

pandas df.loc[:,('col_a','col_b')]

and

df.loc[:,['col_a','col_b']]

下面的链接没有提到后者，尽管它有效。两者都拉视图吗？第一个拉取视图，第二个拉取副本吗？

http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

如果您的 DataFrame 有一个简单的列索引，则没有区别。例如，

In [8]: df = pd.DataFrame(np.arange(12).reshape(4,3), columns=list('ABC'))

In [9]: df.loc[:, ['A','B']]
Out[9]: 
   A   B
0  0   1
1  3   4
2  6   7
3  9  10

In [10]: df.loc[:, ('A','B')]
Out[10]: 
   A   B
0  0   1
1  3   4
2  6   7
3  9  10

但如果 DataFrame 具有 MultiIndex，则可能会有很大差异：

df = pd.DataFrame(np.random.randint(10, size=(5,4)),
                  columns=pd.MultiIndex.from_arrays([['foo']*2+['bar']*2,
                                                     list('ABAB')]),
                  index=pd.MultiIndex.from_arrays([['baz']*2+['qux']*3,
                                                   list('CDCDC')]))

#       foo    bar   
#         A  B   A  B
# baz C   7  9   9  9
#     D   7  5   5  4
# qux C   5  0   5  1
#     D   1  7   7  4
#     C   6  4   3  5

In [27]: df.loc[:, ('foo','B')]
Out[27]: 
baz  C    9
     D    5
qux  C    0
     D    7
     C    4
Name: (foo, B), dtype: int64

In [28]: df.loc[:, ['foo','B']]
KeyError: 'MultiIndex Slicing requires the index to be fully lexsorted tuple len (1), lexsort depth (0)'

KeyError 表示必须对 MultiIndex 进行词法排序。如果我们这样做，那么我们仍然会得到不同的结果：

In [29]: df.sortlevel(axis=1).loc[:, ('foo','B')]
Out[29]: 
baz  C    9
     D    5
qux  C    0
     D    7
     C    4
Name: (foo, B), dtype: int64

In [30]: df.sortlevel(axis=1).loc[:, ['foo','B']]
Out[30]: 
      foo   
        A  B
baz C   7  9
    D   7  5
qux C   5  0
    D   1  7
    C   6  4

这是为什么？df.sortlevel(axis=1).loc[:, ('foo','B')]正在选择第一个列级别等于的列foo，第二列级别是B.

相比之下，df.sortlevel(axis=1).loc[:, ['foo','B']]正在选择第一个列级别为的列foo or B。对于第一列级别，没有B列，但有两个foo列。

我认为 Pandas 的操作原理是，如果你使用df.loc[...] as an 表达，你应该假设df.loc可能会返回副本或视图。 Pandas 文档没有指定任何您应该期望的规则。然而，如果你做了一个任务形式的

df.loc[...] = value

那么你就可以相信 Pandas 会改变df itself.

文档警告视图和副本之间的区别的原因是为了让您意识到使用以下形式的链分配的陷阱

df.loc[...][...] = value

在这里，Pandas 评价df.loc[...]首先，它可以是视图或副本。现在如果它是一个副本，那么

df.loc[...][...] = value

正在更改某些部分的副本df，因此对df本身。雪上加霜的是，对副本的影响也会丢失，因为没有对副本的引用，因此在赋值语句完成后无法访问副本，并且（至少在 CPython 中）因此很快- 待垃圾收集。

我不知道有什么实用的万无一失的方法a priori的方法来确定是否df.loc[...]将返回视图或副本。

然而，有一些经验法则可能有助于指导您的直觉（但请注意，我们在这里讨论的是实现细节，因此不能保证 Pandas 将来需要这样做）：

如果生成的 NDFrame 不能表示为 NDFrame 的基本切片底层 NumPy 数组，那么它可能是一个副本。因此，选择任意行或列将产生一个副本。对连续行和/或连续列（其可以表示为切片）的选择可以返回视图。
如果生成的 NDFrame 具有不同 dtypes 的列，则df.loc可能会再次返回一份副本。

然而，有一个简单的方法可以确定是否x = df.loc[..]是一个视图事后：简单地看看是否改变了一个值x影响df。如果有，那就是一个视图，如果没有，x是一个副本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandas dataframe 视图与复制，我如何区分？的相关文章

按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
Python gdal 未定义符号 GDALRasterBandGetVirtualMem

我正在尝试使用Python GDAL 绑定 https pypi python org pypi GDAL 通过 pip 天真地安装绑定时安装失败并显示错误 VSIFTruncateL 未在此范围内声明 https gis stackex
如果使用 unicode 字符，则从数据库中进行 SELECT 会出现问题

我在用着latest带DatabaseLibrary的python和机器人框架版本 https franz see github io Robotframework Database Library api 1 0 1 DatabaseLi
使用DockerOperator时如何同时使用xcom_push=True和auto_remove=True？

Problem 跑步时DockerOperator with xcom push True xcom all True and auto remove True 任务会引发错误就好像容器在读取其内容之前被删除一样STDOUT Exampl
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
Python 排列（包括子字符串）

我遇到过这个帖子如何在Python中生成列表的所有排列 https stackoverflow com questions 104420 how to generate all permutations of a list in pyth
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
如何测试send_file烧瓶

我有一个小型烧瓶应用程序它需要上传一些图像并将它们转换为多页 tiff 没什么特别的但是如何测试多个文件的上传和文件下载呢我的测试客户端 class RestTestCase unittest TestCase def setUp s

随机推荐

Console.ReadLine() 末尾没有换行符？

问题很简单当我使用 Console ReadLine 控制台上打印的下一个内容将在下一行有什么办法可以继续打印该行吗提前致谢请检查控制台 Read 这不会导致新行或换行
MySQL 监听通知等效项

是否有相当于 PostgresQL 的notify http www postgresql org docs 9 1 static sql notify html and listen http www postgresql org doc
如何在 C# 中将 IEnumerable 转换为 Enum？

我已将多个字符串解析为枚举标志但看不到将它们合并为单个枚举位字段的巧妙方法我使用的方法循环遍历字符串值然后将值转换为 Enum 对象如下所示 Flags public enum MyEnum None 0 First 1 Seco
Spring - 使用 new 是一种不好的做法吗？

正在创建对象by hand 即使用new操作员而不是注册Springbean 和使用依赖注入被认为是不好的做法吗我的意思是确实Spring IoC容器必须了解应用程序中的所有对象吗如果是这样为什么你希望 Spring 创建 bea
dask groupby 不合并分区

我有一组数据我想要对其进行一些简单的 groupby count 操作但我似乎无法使用 dask 来完成此操作我很可能不理解 dask 中执行 groupby reduce 的方式特别是当索引位于分组键中时所以我将用玩具数据来说明
当父类也实现 IDisposable 时，在子类上实现 IDisposable

我有一个父类和子类都需要实现IDisposable 应该在哪里virtual and base Dispose 通话发挥作用当我刚刚覆盖Dispose bool disposing 打电话说我实现了感觉真的很奇怪IDisposable没
PyCharm 虚拟环境和 Anaconda 环境有什么区别？

当我在 PyCharm 中创建新项目时它会创建一个新的虚拟环境我读到当我执行Python脚本时它们是使用此环境中的解释器而不是系统环境来执行的因此如果我需要安装一些软件包我只能将它们安装在这个环境中而不是在系统环境中这很酷
绘图 Deedle 框架

我有以下代码 let mychart frame GetAllSeries gt Seq iter fun key value gt Chart Line value Name key gt Chart Combine where fram
如何使用 haproxy 负载均衡器 Kafka Bootstrap？

我有一个 kafka 集群由 3 台在 AWS 上运行的机器组成卡夫卡1到卡夫卡3 我正在使用新型卡夫卡消费者 gt 0 8 我知道kafka客户端连接到其中一台kafka服务器获取服务器元数据然后直接连接到代理我想确保在代理发生
执行aapt失败

请帮忙解决这个错误 Failed to execute aapt com android ide common process ProcessException Failed to execute aapt at com android b
Hibernate 在更新集合时删除孤儿

我发现从 Hibernate 中的集合中删除时孤立记录不会被删除我一定是做了一些简单的错误这是 Hibernate 101 但我找不到它鉴于以下情况 public class Book ManyToOne NotNull Autho
Javascript Replace() 仅替换第一个匹配项[重复]

这个问题已经存在了你好请参阅这里的 jsfiddle http jsfiddle net moolood jU9QY http jsfiddle net moolood jU9QY var toto bien address 1 bie
在 Java 中从 Json 字符串中提取字段

我正在尝试从以下 Json 字符串中提取每个 company id 的 id String test company id 4100 data drm user id 572901936637129135 direct status id
什么是window.onpaint？

有人推荐here https stackoverflow com questions 6944037 how to run java script code before page load that window onpaint用于在页面
分层边缘捆绑：添加父组标签

我对 HTML 和 JavaScript 还很陌生我面临着著名的分层边缘捆绑可用here https bl ocks org mbostock 7607999 由 D3 js 库生成 My goal is to add a semi ci
将阻塞调用包装为异步，以实现更好的线程重用和响应式 UI

我有一个类负责通过调用遗留类来检索产品可用性该遗留类本身通过进行 BLOCKING 网络调用在内部收集产品数据请注意我无法修改旧版 API 的代码由于所有产品都是相互独立的因此我希望并行收集信息而不会创建任何不必要的线程也不会
counter_cache 与 has_many :through

我刚刚创建了一个 counter cache 字段控制器如下所示 users User where sex gt 2 order received likes count User rb 中的关联是 has many received l
Qt同步QNetworkAccessManager获取

执行同步 QNetworkAccessManager get 的正确方法是什么 The qt wiki http qt shoutwiki com wiki How to wait synchronously for a Signal in
java.lang.NullPointerException：Android尝试调用虚拟方法错误

我的 android webview 片段应用程序崩溃了在我添加了一个按钮从一个片段转到另一个片段后控制台上的错误是 E AndroidRuntime FATAL EXCEPTION main Process com ahmed sto
pandas dataframe 视图与复制，我如何区分？

有什么区别 pandas df loc col a col b and df loc col a col b 下面的链接没有提到后者尽管它有效两者都拉视图吗第一个拉取视图第二个拉取副本吗 http pandas pydata org

pandas dataframe 视图与复制，我如何区分？

pandas dataframe 视图与复制，我如何区分？ 的相关文章

随机推荐

热门标签

pandas dataframe 视图与复制，我如何区分？的相关文章