数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）

2024-03-23

我有大约 1500 万对，由一个整数与一批（2 到 100 个）其他整数配对组成。

如果有区别的话，整数本身的范围是 0 到 1500 万。

我考虑过使用：

Pandas，将批次存储为 python 列表

Numpy，其中批次存储为其自己的 numpy 数组（因为 numpy 不允许在其 2D 数据结构中使用可变长度行）

Python 列表列表。

我还查看了 Tensorflow tfrecords，但对此不太确定。

我的 RAM 大约只有 12 GB。我还将使用机器学习算法进行训练，以便

如果必须将所有值存储在内存中，numpy 可能是最有效的方法。 Pandas 是建立在 numpy 之上的，因此它包含一些开销，如果您不需要 pandas 附带的任何功能，则可以避免这些开销。

Numpy 在处理这种大小的数据时应该没有内存问题，但需要考虑的另一件事是使用生成器从每对位于新行的文件中读取数据，这取决于您将如何使用这些数据。这将显着减少内存使用量，但在处理 sum() 或 max() 等聚合函数时会比 numpy 慢，并且如果每个值对独立处理，则更合适。

with open(file, 'r') as f:
    data = (l for l in f)  # generator
        for line in data:
            # process each record here

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）的相关文章

如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

Qt 应用程序抛出“dyld：未找到符号：__cg_jpeg_resync_to_restart”

我变得众所周知dyldOS X 上的问题 Qt pro文件 INCLUDEPATH usr local Cellar libpng 1 6 23 include usr local Cellar jpeg 8d include LIBS L
用于密码存在验证的自定义错误消息

看起来这应该很简单注册新用户时我想要空白用户名和密码的自定义错误对于用户名来说效果很好 validates name presence message Please enter a name length maximum 50 mes
C++ 单例设计模式替代方案

我讨厌死马当活马医也就是说在过去的几天里我已经阅读了很多关于单例模式使用的相互冲突的文章这个问题不是关于哪个是一般更好的选择而是关于什么对我的用例有意义我正在做的宠物项目是一个游戏我目前正在编写的一些代码我倾向于使用单例模式
emacs 如何刷新缓冲区并保留突出显示 - 特别是对于日志

I am often parsing log files which I help visualize by highlighting specific char sequences via M s h r regex aka the co
为什么 `(fmap . fmap) sum Just [1, 2, 3]` 中的类型有效？

我正在享受一生中的美好时光Haskell 编程从第一原理开始 http haskellbook com 我得到了以下我无法拆开的示例第1286页电子阅读器 Prelude gt fmap fmap sum Just 1 2 3 Just
ScriptManager1.AsyncPostBackErrorMessage 不显示错误消息

我总是使用以下两段代码它们可以工作来捕获 AjaxasyncPostBackErrors
“会议结束！” -NHibernate

这是在 Web 应用程序环境中初始请求能够成功完成但是任何其他请求都会从 NHibernate 框架返回会话已关闭响应我使用 HttpModule 方法和以下代码 public class MyHttpModule IHttpMo
如何使用命令行在 OS X 上启动应用程序 - 最佳方法

我想从脚本在 OSX 上启动应用程序我需要通过一些command line arguments 很遗憾 open不接受命令行参数我能想到的唯一选择是使用nohup myApp gt dev null 启动我的应用程序以便它可以独立于启
\n 不会在 javascript 中的文本之间创建新行

我有一段 JavaScript 应该更新我的 HTML 中的 a var StringContent a Some String a b Some string b c Some string c 然后我希望每个字符串 a b c 通过以下
如何使用单元测试测试是否引发并捕获了正确的异常？

我想测试是否引发并捕获了正确的异常unittest 下面是我的示例代码 def foo try raise Exception ValueError except ValueError print raised 这是我想做的 self as
执行 32 位和 64 位 mshta.exe（绕过默认处理程序）

我希望能够在 32 位和 64 位版本的 mshta exe 中启动 page hta 创建文件 c page hta h1 Test Page h1
如何配置 cabal 对 32 位和 64 位软件包使用不同的文件夹？

我正在 Windows 上对 64 位 GHC 进行一些测试同时将代码迁移到 GHC 7 6 1 这意味着我安装了 GHC 7 6 1 的 32 位和 64 位版本因此我可以区分 64 位特定问题和 7 6 1 的一般问题我的阴谋集团
使用美观和 geom_text 时从图例中删除“a”

如何从这段代码生成的图例中删除字母 a 如果我删除geom text 那么 a 字母将不会显示在图例中我想保留geom text 尽管 ggplot data iris aes x Sepal Length y Sepal Width s
如何在 iPhone 上以编程方式启动电话会议

在 iPhone 上以编程方式启动电话会议的方法有哪些关于这个问题的任何知识据我所知告诉 iPhone 呼叫某人的唯一方法是调用 tel 0123456 url 该 URL 方案记录在 Apple SDK 中 Source https
如何创建自定义层来获取和操作 Keras 中的渐变

我正在尝试实现梯度投影技术通过对抗性学习减轻不必要的偏见 http m mitchell com papers Adversarial Bias Mitigation pdf 模型架构是 1 输入层 2 密集定长层 3 Custom gra
Javascript 沙箱单元测试

我正在使用 QUnit 这非常好我已将我的 JS 应用程序包含在 function 沙箱这隐藏了很多我不想公开的代码但我还需要测试这些代码以下是其工作原理的示例 function var PublicAPI window Publi
CMake 中的函数与宏

CMake 2 8 12官方文档 http www cmake org cmake help v2 8 12 cmake html说关于macro 调用时先执行宏中记录的命令通过用参数替换形式参数 arg1 进行修改通过然后像普通命
使用多处理读取、压缩、写入

我正在压缩文件对于其中的一些来说单个进程就可以了但我要压缩数千个进程这可能并且已经花费了几天的时间所以我想通过多重处理来加快速度我有read https stackoverflow com a 2069556我应该避免让多个
给定一个张量流模型图，如何找到输入节点和输出节点名称

我在张量流相机演示中使用自定义模型进行分类我生成了一个 pb 文件序列化的 protobuf 文件我可以显示它包含的巨大图表将此图转换为优化图如中给出https www oreilly com learning tensorfl
数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）

我有大约 1500 万对由一个整数与一批 2 到 100 个其他整数配对组成如果有区别的话整数本身的范围是 0 到 1500 万我考虑过使用 Pandas 将批次存储为 python 列表 Numpy 其中批次存储为其自己的 nu

数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）

数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言） 的相关文章

随机推荐

热门标签

数百万对单个整数与一批（2 到 100）整数配对的最佳数据类型（就速度/RAM 而言）的相关文章