PyTables 的优点是什么？ [关闭]

2023-11-30

我最近开始学习PyTables，发现它非常有趣。我的问题是：

当涉及到巨大的数据集时，PyTables 相对于数据库的基本优势是什么？
这个包的基本目的是什么（我可以在 NumPy 和 Pandas 中进行相同类型的结构化，那么 PyTables 有什么大不了的）？
它对于分析大数据集真的有帮助吗？任何人都可以借助示例和比较来详细说明吗？

谢谢你们。

当涉及到巨大的数据集时，PyTables 相对于数据库的基本优势是什么？

实际上，它is一个数据库。当然，它是一个分层数据库，而不是像这样的一级键值数据库dbm（这显然不太灵活）或像关系数据库sqlite3（更强大，但更复杂）。

但相对于非数字特定数据库的主要优势与 numpy 的优势完全相同ndarray在普通的Python上list。它针对执行大量矢量化数字运算进行了优化，因此如果您正在使用它执行此操作，则将花费更少的时间和空间。

这个包的基本目的是什么

引用第一行首页（或者，如果您愿意，第一行the FAQ):

PyTables 是一个用于管理分层数据集的包，旨在高效、轻松地处理极其大量的数据。

还有一个页面列出了主要特点，链接在首页顶部附近。

（我可以在 NumPy 和 Pandas 中进行相同类型的结构化，那么 PyTables 有什么大不了的）？

真的吗？你可以在只有 16GB RAM 的机器上处理 numpy 或 pandas 中的 64GB 数据吗？还是32位机器？

不，你不能。除非您将数据分成一堆单独的数据集，然后根据需要加载、处理和保存，但这会更加复杂，而且速度也会慢得多。

这就像问为什么需要 numpy，而你只用常规的 Python 列表和迭代器就可以做同样的事情。当你有一个包含 8 个浮点数的数组时，纯 Python 就很好用，但当你有一个 10000x10000 的浮点数数组时，纯 Python 就不行了。当您拥有几个 10000x10000 数组时，numpy 非常有用，但当您拥有十几个大小高达 20GB 的互连数组时，numpy 就不再适用了。

它对于分析大数据集真的有帮助吗？

Yes.

任何人都可以借助任何示例来详细说明吗？

是的。与其复制这里的所有示例，不如直接查看文档首页上的简单示例、源代码树中的大量示例以及从前面单击两次即可链接到实际用例的链接文档页面等？

如果您想让自己相信 PyTables 的实用性，请采用任何示例并将其扩展到 32GB 的数据，然后尝试弄清楚如何在 numpy 或 pandas 中执行完全相同的操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PyTables 的优点是什么？ [关闭] 的相关文章

在命令提示符中识别“Pip”，但在 PyCharm 终端中无法识别

当我尝试在 Windows 命令提示符中运行 pip 时 pip V工作正常但是当我尝试在 PyCharm 终端中运行它时我得到 pip is not recognized as an internal or external comm
ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
使用 Flask 从 Jinja 模板中的 settings.py 文件获取变量

假设我有 settings py 文件其中包含一堆常量将来可能会更多如何访问 Jinja 模板中的这些变量 Flask 会自动将您的应用程序的配置包含在标准上下文 http flask pocoo org docs templatin
numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
如何在Python模拟中调用模拟方法

我想创建一个模拟方法来调用被模拟的底层方法我正在想象类似以下的内容但我找不到任何有关模拟对象的文档该对象包含对被模拟对象的引用我将其表示为 wrapped method foo below from mock import patc
在 matplotlib 中分割图例

是否有可能将一个大图例分成多个通常是 2 个较小的图例 from pylab import t arange 0 0 2 0 0 01 s sin 2 pi t plot t s linewidth 1 0 label Graph1 g
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
将glade接口放入python中

我在 Glade 中制作了一个 gui 我想将其放入 python 程序中我正在调整我在网上找到的教程中的说明以将其加载到我的林间空地文件中 http www pygtk org articles pygtk glade gui Cre
使用 PyCharm 分析 Django

即使在开发环境中我的应用程序也相当慢所以我想找出是什么导致它变慢以便我可以尝试修复它我了解调试工具栏根据它的报告数据库查询和下载的源都不是问题所以它一定是业务逻辑但是我无法使用 Django 服务器运行 PyCharm 分
如果我更改当前工作目录，为什么 __file__ 会变成无效路径？

执行中test py from tmp import os print os path abspath file os chdir var print os path abspath file output tmp test py var
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
vtkPythonAlgorithm 控制管道执行

我正在尝试用 python 编写一个 vtk 过滤器ProjectDepthImage进行投影不是问题它控制 vtk 管道的执行基本上我对 UserEvent 有一个回调当用户在渲染窗口处于活动状态时按下 u 键时会触发该回调这将
每次 apache 重新启动时，flask-login 会话都会被破坏

我正在使用烧瓶登录https github com maxcountryman flask login https github com maxcountryman flask login和领域记住登录用户 http packages py
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

subprocess.Popen("echo $HOME"... 和 subprocess.Popen(["echo", "$HOME"] 之间有什么区别

我无法得到它是 bash 相关的或 python 子进程但结果是不同的 gt gt gt subprocess Popen echo HOME shell True stdout subprocess PIPE communicate b
如何使用 JavaScript 或 HTML 将文件输入设置为空？

在我正在开发的网站上我有一个文件输入用户可以从中上传文件它使用 Ajax 不是真正的将文件发送到绑定到 iframe 的 php 文件我的问题是 Firefox 自动填充文件输入元素有没有办法让用户可以选择单击提交按钮而不发送文
复制绘图区域在 Powerpoint VBA 中无法正常工作

我拼凑了以下代码将图表的格式从一个图表复制到另一个图表代码仍然很混乱因为我试图想出引用图表的最佳方法欢迎任何想法我无法准确复制主要是绘图区域和辅助访问的格式和位置一个页面上必须有两个图表首先选择源然后选择目标目前来看它们
自动滚动 Cypress 行为导致下拉菜单在 Cypress 测试中关闭。有解决方法吗？

Cypress 的自动滚动行为正在关闭我试图在其中选择元素的下拉列表这会导致测试失败因为找不到第一个下拉项我添加的解决方法是添加第二个 click 键入输入后重新打开下拉菜单 cy get selector click force t
SymPy：如何根据其他表达式返回一个表达式？

我还很陌生SymPy并提出一个可能是基本问题的问题或者我可能只是误解了 SymPy 的使用方式有没有办法创建一个不由原子表示而是由其他表达式组合表示的表达式 Example gt gt gt from sympy physics uni
当放入结构中时，值的寿命不够长

我正在尝试使用 Rust 中的 LLVM这个板条箱我正在尝试创建一个代码生成器结构来为我保存上下文模块和构建器但是当我尝试编译时我收到一条错误消息 c does not live long enough 我怎样才能编译它为什么 c
铸造容器 C++ [重复]

这个问题在这里已经有答案了可能的重复是否可以将 Base 类型的 STL 容器转换为 Derived 类型这应该是一个简单的问题如果我有一个基类的容器例如 STL 列表是否可以将整个容器转换为子类类型例如 A inherits
@Query 注释使用 like %?1%

我想写一个这样的查询 Query select p from Product p where p name 1 or p desc like 1 但这给了我例外 org hibernate hql ast QuerySyntaxExcept
这个方法如何运作？

我经常遇到这种注册动作侦听器的方式虽然我最近一直在使用这种方法但我不明白这是如何以及为什么的这是一个 submit new JButton submit submit addActionListener new ActionListe
绑定到 ICollectionView 时模拟数据不显示

如果我绑定我的ListBox到视图模型ObservableCollection或 XAML 资源CollectionViewSource 模拟数据在设计时显示有时CollectionViewSource由于某些 XAML 更改而停止显示此
Eclipse 在没有互联网连接的 PC 上间歇性挂起

我从 Eclipse 3 2 开始就遇到过这个问题但在较新的版本中这个问题出现得更频繁每当我访问某些配置菜单项或 Eclipse 解析包含指向某个 Internet URL 的 xmlns 变量的 XML 文件时 Eclipse ID
从 DataTable 批量插入到 SQLCE DataSource

这是一个使用 SQL CE 作为数据源的 C WPF 应用程序我有一个 DataTable 显示为 DataGrid 和一个 SQL CE DataSource 我使用 DataAdapter DataSet 和 DataTable 从
如何将 XML 文件读取到包含 null 元素的空字符串的 Dictionary>

我有一个 xml 文件例如
雅虎财经 python 上的某些股票和页面出现 404 错误

我正在尝试通过此 URL 从雅虎财经抓取数据https finance yahoo com quote AAPL key statistics p AAPL 运行下面的 python 代码后我得到以下 HTML 响应 import num
反转非唯一字典

我有一本字典需要根据非唯一值进行反转和分组该字典根据现有的最佳答案而失败 gt gt gt graph a car red b car blue gt gt gt inv map gt gt gt for k v in graph it
在处理中获取多个音频输入

我目前正在编写一个需要访问多个音频输入的处理草图但处理只允许访问默认线路我尝试直接从 Java 混合器获取线路在处理中访问但我仍然只获得信号从我的机器上当前设置为默认值的那一行开始我已经开始考虑按照建议通过 OSC 从 Super
通过 AJAX 进行表单处理 - 避免生成 GET 和 POST 请求

我正在尝试通过 AJAX 发送表单数据但我看到 GET 和 POST 请求都正在生成这是我的表单的提交处理程序
std::ostream 到 QDataStream

我已经为 MyClass 重载了 friend std ostream operator lt lt std ostream out const MyClass Obj 现在我想将 std ostream 转换为 QDataStream 而
为什么ld输出的二进制文件无法执行？

我使用的是 Ubuntu 18 04 x86 64 这是我的程序的两个源文件 main c include stdio h int sum int a int n int array 2 1 2 int main int val sum a
PyTables 的优点是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我最近开始学习PyTabl

PyTables 的优点是什么？ [关闭]

PyTables 的优点是什么？ [关闭] 的相关文章

随机推荐

热门标签