从 pyarrow.Table 转换为 pandas 时处理大时间戳

2024-03-21

我有一个时间戳9999-12-31 23:59:59以 int96 形式存储在 parquet 文件中。我使用 pyarrow.dataset 读取此镶木地板文件，并将结果表转换为 pandas 数据框（使用 pyarrow.Table.to_pandas()）。转换为 pandas 数据帧将我的时间戳变成1816-03-30 05:56:07.066277376（Pandas 时间戳的有效日期范围可能较小），没有任何关于数据类型或任何内容的抱怨。

然后，我获取这个 pandas 数据框，将其转换回表并使用 pyarrow.dataset.write_dataset 将其写入镶木地板数据集

我现在得到的数据与开始时的数据不同，没有看到任何警告。（当我尝试从 parquet 数据集创建 impala 表但无法正确查询它时，我发现了这一点）。

从 pyarrow 表转换为 pandas 时，有没有办法处理这些大时间戳？

我尝试过使用timestamp_as_object = True参数如Table.to_pandas(timestamp_as_object = True)，但似乎没有做任何事情。

EDIT：提供可重现的示例。问题是 pyarrow 在读取文件时认为时间戳是纳秒，尽管它们存储为微秒：

import pyarrow as pa
import pyarrow.dataset as ds
non_legacy_hdfs_filesystem = # connect to a filesystem here
my_table = pa.Table.from_arrays([pa.array(['9999-12-31', '9999-12-31', '9999-12-31']).cast('timestamp[us]')], names = ['my_timestamps'])
parquet_format = ds.ParquetFileFormat()
write_options = parquet_format.make_write_options(use_deprecated_int96_timestamps = True, coerce_timestamps = 'us', allow_truncated_timestamps = True)
ds.write_dataset(data = my_table, base_dir = 'my_path', filesystem = non_legacy_hdfs_filesystem, format = parquet_format, file_options = write_options, partitioning= None)

dataset = ds.dataset('my_path', filesystem = non_legacy_hdfs_filesystem)
dataset.to_table().column('my_timestamps')

我的理解是您的数据已使用保存use_deprecated_int96_timestamps=True.

import pyarrow as pa
import pyarrow.parquet as pq


my_table = pa.Table.from_arrays([pa.array(['9999-12-31', '9999-12-31', '9999-12-31']).cast('timestamp[us]')], names = ['my_timestamps'])
pq.write_table(my_table, '/tmp/table.pq',  use_deprecated_int96_timestamps=True)

在此模式下，时间戳使用 96 位整数以（默认/硬编码）纳秒分辨率保存。

>>> pq.read_metadata('/tmp/table.pq').schema[0]
<ParquetColumnSchema>
  name: my_timestamps
  path: my_timestamps
  max_definition_level: 1
  max_repetition_level: 0
  physical_type: INT96
  logical_type: None
  converted_type (legacy): NONE

在最新版本的 arrow/parquet 中，时间戳是具有可配置分辨率的 64 位整数。

应该可以使用微秒分辨率将传统 96 位纳秒时间戳转换为 64 位整数，而不会丢失信息。但不幸的是没有选项镶木地板阅读器 https://arrow.apache.org/docs/python/generated/pyarrow.parquet.read_table.html#pyarrow.parquet.read_table这会让你做到这一点（据我所知）。

您可能必须提出 parquet/arrow 的问题，但我认为他们正在努力弃用 96 位整数在此输入链接描述 https://issues.apache.org/jira/browse/PARQUET-1883.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 pyarrow.Table 转换为 pandas 时处理大时间戳的相关文章

与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

异常保证和按值传递

我最近在多种情况下遇到过这个问题其中表达的一些观点让我感到惊讶这是第一个简单的例子 void f std vector
在 Objective-C 中使用枚举？

这是在 Objective C 中使用 emum 的正确方式甚至是有效方式吗即不使用 menuItem 而只是定义了一个列表 add 1 load 2 list 3 等 enum menuItems add 1 save load l
AsyncTaskLoader：方向更改后未调用 onLoadFinished

我有一个AsyncTaskLoader对于长时间运行的任务当加载程序运行时我的活动由于方向变化而被破坏 onLoadFinished回调未被调用我可以以某种方式将加载程序重新附加到我的新活动它的回调吗这是我的简化的 Acti
Django python 中的Search_fields

我想知道如何使用外键来执行搜索例如 class Product models Model name models CharField max length 127 description models TextField code mod
将 mongodb 作为 Windows 服务运行

我已经在 win32 上安装了 mongodb 我正在尝试将其作为服务运行我已按照此处发布的说明进行操作 http www deltasdevelopers com post Running MongoDB as a Windows Se
SQL Server 2005 查询的性能

这需要 4 秒来执行有 2000 000 行为什么 DECLARE AccountId INT DECLARE Max INT DECLARE MailingListId INT SET AccountId 6730 SET Max 2
将选择器添加到 UIButton

I have ViewController然后两个不同的ViewControllers扩展该主要ViewController 一个用于 iPhone 另一个用于 iPad iPad 的ViewController实例化一个单独的扩展UIVi
哪些真实平台将硬件端口映射到内存地址？

我有时会在某些平台上看到以下 C 或 C 代码的语句 int ptr ptr 0 可能会导致写入硬件输入输出端口如果ptr恰好存储了该端口映射到的地址通常它们被称为嵌入式平台此类平台的真实例子有哪些根据我的经验大多数系统都使用内
使用自定义区域性时 ResourceManager 未选择正确的资源集

我使用以下代码创建了一个本地化的 MVC 网站亚历克斯阿达米安 Alex Adamyan 的博客 http adamyan blogspot com 2010 07 addition to aspnet mvc localization
如何在类Unix操作系统下方便的运行SBCL代码？

David James 写了问题和答案我将对其进行编辑以符合 Stackoverflow 标准使用 SBCL 您可以将 Lisp 代码编译为机器代码像 Java net C 甚至 C 一样您将需要运行时所以有两种方法来编译 Com
CATALINA_OPTS 在 Tomcat 中如何工作？

我很好奇 CATALINA OPTS 在 Apache Tomcat 的后台如何工作是的我知道它在 Tomcat 启动和运行时执行我添加了一些参数供我的程序使用甚至我使用它很长时间将其添加到我的 VM 参数中但不确定它是如何运行
有条件的承诺

在我的脚本中我需要检索一个字典以将编码值转换为名称 ajax retrieve dictionary done function dictionary convert encoded values into names done func
计算时间戳之间的营业时间[重复]

这个问题在这里已经有答案了我使用的是Postgres 8 3 目前没有选择版本我的原始数据表如下 ID start time finish time 01 2013 01 23 10 47 52 05 2013 02 25 11 18
如何在 Scala 中创建没有文字元素名称的 XML 根节点？

我正在寻找创建一个这样的文档
Spark ml 和 PMML 导出

我知道可以将模型导出为PMML with Spark MLlib 但是关于Spark ML 是否可以转换LinearRegressionModel from org apache spark ml regression to a Linea
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
将列的元素分配到基于另一列的矩阵中

我需要帮助编写执行以下操作的脚本 data 1 1 2 2 1 3 3 3 4 3 3 5 4 3 6 该脚本需要检查第二列中的数字是否重复下面的草图解释了我想要完成的任务对于第二列中的每个重复值我希望第三列中共享第二列中每个重复值的
尝试使用 POSIX 消息队列创建消息队列时权限被拒绝

我正在使用以下代码片段创建一个消息队列Linux 编程接口 http man7 org tlpi if mq open my message queue O CREAT O RDWR NULL 1 perror mq creation fa
自定义软键盘按键预览

I am 使用软键盘工作我已经完成了所有功能但现在我只需要更改关键预览的视图当关键是按下目前显示了我的按键预览默认示例键盘按键预览如下图所示正如我们所看到的当按下按键时会弹出字符 d 但现在我需要定制它作为目前主要预览背
从 pyarrow.Table 转换为 pandas 时处理大时间戳

我有一个时间戳9999 12 31 23 59 59以 int96 形式存储在 parquet 文件中我使用 pyarrow dataset 读取此镶木地板文件并将结果表转换为 pandas 数据框使用 pyarrow Table t

从 pyarrow.Table 转换为 pandas 时处理大时间戳

从 pyarrow.Table 转换为 pandas 时处理大时间戳 的相关文章

随机推荐

热门标签

从 pyarrow.Table 转换为 pandas 时处理大时间戳的相关文章