为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？

2024-02-20

给出以下代码（在 Jupyter 笔记本中执行）：

In [1]: import pandas as pd
        %time df=pd.SparseDataFrame(index=range(0,1000), columns=range(0,1000));

CPU times: user 3.89 s, sys: 30.3 ms, total: 3.92 s
Wall time: 3.92 s

为什么创建稀疏数据框需要这么长时间？

请注意，如果我增加行的维度，这似乎是无关紧要的。但是当我将列数从 1000 增加到 10000 时，代码似乎要花很长时间，我总是不得不中止它。

将其与 scipy 的稀疏矩阵进行比较：

In [2]: from scipy.sparse import lil_matrix
        %time m=lil_matrix((1000, 1000))

CPU times: user 1.09 ms, sys: 122 µs, total: 1.21 ms
Wall time: 1.18 ms

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scipy

jupyter

为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

Bootstrap 4从右到左自定义文件输入

我正在尝试使上传文件输入方向从 bootstrap 4 从右到左但到目前为止我尝试过的都不起作用我还尝试改变不同标签的方向 div class form group div class col md 4 div class custom
我需要有关 NoSQL/MongoDb 和数据/模型结构的建议

最近我正在探索NoSQL 数据库我需要关于如何针对给定问题以最优化最有效的方式存储数据的建议我现在的目标是 MongoDB 不过它应该与 CouchDB 相同假设我们有这 3 个模型 Story id title User id
字符串到二进制，反之亦然：扩展 ASCII

我想通过将字符串放入字节数组中将其转换为二进制 String getBytes 然后存储每个字节的二进制字符串 Integer toBinaryString bytearray 在 String 中然后我想通过转换回普通字符串Byte p
如何获取用户输入的名称并在 edittext 中搜索相应位置

我可以将 Google 地图放入我的 Android 手机中我设置了谷歌地图的搜索选项如果用户给出位置并单击按钮搜索意味着它会在谷歌地图中找到该位置现在我想当用户在 Edittext 中给出位置名称时显示相对位置请给我任何参考 i
用于图像过滤的 3d CUDA 内核索引？

我有一个图像特征矩阵A是n m 31矩阵用于过滤的填充我有B作为对象过滤器k l 31 我想获得一个输出矩阵 C 为 p r 31 其大小为图像 A 的大小无填充我尝试编写 CUDA 代码来在 A 上运行过滤器 B 并获得 C 我假设
Python：s3 中的递归 glob

我试图从 s3 获取子目录和子目录的子目录等等内的 parquet 文件路径列表如果它是我的本地文件系统我会这样做 import glob glob glob C Users user info parquet recursive
在 .Net 中为 64 位计算机创建快捷方式 - 仅编译为 64 位应用程序 [重复]

这个问题在这里已经有答案了可能的重复在目录中创建应用程序快捷方式 https stackoverflow com questions 234231 creating application shortcut in a directory
ActionView::Template::错误：缺少要链接的主机！请提供 :host 参数，设置 default_url_options[:host]，或设置 :only_path 为 true

我的 ruby on Rails 动作邮件程序在开发环境中运行良好但在生产环境中它不断抛出 ActionView Template Error Missing host to link to Please provide the hos
Kubernetes 持久卷声明无限期处于待处理状态

我创建了一个来自 Google Compute Engine 永久磁盘的 PersistentVolume 我已经对其进行了格式化并配置了数据 Kubernetes 表示 PersistentVolume 可用 kind Persisten
如何以编程方式添加地图片段

我想以编程方式将此 xml 片段添加到其他片段是否可以
如何创建带圆角的条纹按钮

是否可以创建一个带有条纹背景和圆角的按钮我知道如何使用制作条纹背景对角线条纹 http www stripegenerator com http www stripegenerator com 和使用tileMode repeat 的位
JUnit 5 中的ExternalResource 和TemporaryFolder 等价物是什么？

根据JUnit 5 用户指南 http junit org junit5 docs current user guide migrating from junit4 rulesupport JUnit Jupiter 为某些 JUnit 4
重定向输出时 Windows 编码发生变化

你好我有以下 python 文件 test py import sys print sys stdout encoding sys stdout reconfigure encoding utf 8 print sys stdout en
基于角色的jwt授权

我正在尝试使用 JSON Web 令牌对 Node js API 进行身份验证我可以生成令牌来验证用户身份现在我需要根据用户角色保护我的 API 以下是我如何路由中间件来验证和检查令牌 var app express var apiRo
如何在其他流的基础上过滤Apache flink流？

我有两个流一个是 Int 另一个是 json 在 json Schema 中有一个键是一些 int 所以我需要通过与另一个整数流的键比较来过滤 json 流那么在 Flink 中是否可能是的您可以使用 Flink 进行这种流处理
在画布上画一条弯曲的路径？

如何绘制二次曲线或三角曲线例如sin x on a Canvas http developer android com reference android graphics Canvas html 像你一样我需要从point x1 y1
C++跨平台蓝牙库

是否有任何用 C 编写的跨平台库可以知道连接到这台电脑的设备列表这里有一些额外的库但没有一个真正适合生产 https github com OpenBluetoothToolbox SimpleBLE https github com
获取嵌入表中最里面的行

我有一个带有嵌套表的表问题是在鼠标事件侦听器中我想抓取最深的行我发现了this https stackoverflow com questions 18874829 how do i highlight only the innerm
JSON简单：整数解析

我在 REST 服务中解析 JSON 整数时遇到问题解析 String 和 double 类型效果很好 Working JSONParser parser new JSONParser Object obj null try obj pa
为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？

给出以下代码在 Jupyter 笔记本中执行 In 1 import pandas as pd time df pd SparseDataFrame index range 0 1000 columns range 0 1000 CPU

为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？

为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？ 的相关文章

随机推荐

热门标签

为什么创建 SparseDataFrame (Python pandas) 需要这么长时间？的相关文章