Pyspark toPandas() 越界纳秒时间戳错误

2024-02-11

我正在尝试将 Spark DataFrame 转换为 Pandas。但是，它给出以下错误：

OutOfBoundsDatetime: Out of bounds nanosecond timestamp:

有解决办法吗？

如果我删除所有时间戳列，它会起作用，但我想将整个表放入 Pandas 中。

将 Spark DataFrame 引入 Pandas 时，我从未遇到过错误。

这是一个相当大的表，包含多个时间戳列。有些是YYYY-MM-DD，还有一些是YYYY-MM-DD 00:00:00类型列。

有多个列包含不存在的年份变量，数量未知。

下面是一个例子。

data = {
    "ID": ["AB", "CD", "DE", "EF"],
    "year": [2016, 2017, 2018, 2018],
    "time_var_1": [
        "3924-01-04 00:00:00",
        "4004-12-12 12:38:00",
        "2018-10-02 01:32:23",
        "2018-04-05 00:00:00",
    ],
}

df = pd.DataFrame(data)

sdf = spark.createDataFrame(df)

sdf = sdf.withColumn("time_var_1", spark_fns.to_timestamp(spark_fns.col("time_var_1")))

我对 PySpark 不太熟悉，所以我不确定是否有errors='coerce'将表从 Spark DataFrame 导入 Pandas 时等效。

您可以使用 null 来屏蔽无效时间戳when:

import pandas as pd
import pyspark.sql.functions as F

pdf = sdf.withColumn(
    'time_var_1',
    F.when(F.col('time_var_1') < F.lit(pd.Timestamp.max), F.col('time_var_1'))
).toPandas()

print(pdf)
   ID  year          time_var_1
0  AB  2016                 NaT
1  CD  2017                 NaT
2  DE  2018 2018-10-02 01:32:23
3  EF  2018 2018-04-05 00:00:00

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

apachespark

PySpark

apachesparksql

Pyspark toPandas() 越界纳秒时间戳错误的相关文章

Pandas v1.1.0：Groupby 滚动计数比滚动平均值和总和慢

我正在使用 Pandas v1 1 0 运行 groupby 滚动计数总和和平均值我注意到滚动计数比滚动平均值和总和慢得多这似乎违反直觉因为我们可以从平均值和总和中得出计数并节省时间这是一个错误还是我错过了什么感谢您的建议 im
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
根据 pandas 列中的字符串值从 DataFrame 中选择行

如何根据pandas列中的字符串值从DataFrame中选择行我只想显示全部大写的状态各州拥有城市总数 import pandas as pd import matplotlib pyplot as plt pylab inline d
pandas - 枢轴 ||创建比率/百分比的自定义列

import numpy as np import pandas as pd data experiment name exp1 exp1 exp1 exp1 exp1 exp1 variant A B A B A B sessions w
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
pandas：选择匹配多个条件的所有行

我有以下数据框 gt gt gt df pd DataFrame col1 1 2 1 col2 6 3 6 gt gt gt df col1 col2 0 1 6 1 2 3 2 1 6 和以下字典 gt gt gt di col1 1
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
使用 Python Pandas 获取多个值来制作表格

使用我的代码我可以将两个 Excel 数据库连接到 1 中问题是它只显示收入列而不显示列展示次数为了更清楚我留下了代码和示例我尝试过 df1 df1 pivot index Cliente columns Fecha value
Python - Pandas - 将特定函数应用于给定级别 - 多索引数据帧

我有一个多索引 DataFrame 并且我希望仅对分配给我的级别之一的向量应用一些计算使用下面的代码 import pandas as pd import datetime ticker date US datetime date tod
如何在pandas中分组后从每组中选择前n行？ [复制]

这个问题在这里已经有答案了我有一个具有以下形状的 pandas 数据框 open year open month type col1 col2 我想找到每个年月中的顶级类型所以我首先找到每个年月中每种类型的计数 freq d
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2

随机推荐

git lfs 迁移后 git repo 损坏

git lfs migrate 使用不当一切都会以某种方式生成包含每种已知文件类型的 gitattributes 文件这基本上摧毁了我们的项目因为每种类型的所有文件现在看起来都是这样的 version https git lfs gi
Git - 拉取后缺少标签

它不是几乎因为 stackoverflow 不允许精确标题的重复 Git Pull 一切都是最新的但事实并非如此 https stackoverflow com questions 8350567 git pull everythi
ImportError：动态模块没有定义 init 函数，但它确实定义了

我正在尝试为供应商 C 库编写绑定我已经成功地使用如下代码片段在其他模块中定义 init 函数但在这个模块中它似乎不起作用它编译得很好但是当我尝试将其导入到测试中时就会抛出 ImportError脚本这里可能出了什么问题 ifnd
DirectX 11 叠加

我正在为游戏编写 DirectX 11 覆盖创建纹理非常简单而且我对 C C 有很好的了解我遇到的问题是在我的测试窗口中我可以打印纹理但是一旦我改变相机角度纹理就会随之移动这就是大多数人想要的我想知道的是如何以 2D 打印某些
如何将球形贴图投影到球体/立方体上：“等距矩形到立方体”

更新我找到 http os ivrpa org panosalado wiki http os ivrpa org panosalado wiki 在java中有一个实现谁有类似的 c 或 c 东西我有这张全景图来自谷歌街景的球形地
用Java创建虚拟打印机

我想使用 Java 创建一个虚拟打印机这样当您打印文件使用 Word 或其他东西时 Java 打印机就会被列为有效打印机我的目标是获取程序 Word 等直接发送到打印机的打印机格式化对象我不知道这是否可能对于这个问题来说这似
合并 git 中没有真正共同祖先的复制存储库的更改

我有一个项目 DemoA 它是基于 git 存储库 Project1 构建的不幸的是 DemoA 一开始只是 Project1 文件的副本然后才变成一个实际的长期项目我现在想让 Project1 成为 DemoA 的子模块但更重要的
如何创建命名引用类型元组？

以下行创建一个命名的ValueTuple var tuple a 1 b 2 c 3 d 4 e 5 f 6 值类型无法有效传递做C 7提供了一种创建命名元组的方法Tuple type 如果你的意思是是否有办法将其他名称附加到System
FaceBook API，应用内登录

我跟着本指南 http developers facebook com docs guides mobile ios我已经通过 Facebook 集成成功创建了我的应用程序有什么问题当用户必须登录时应用程序会在浏览器中退出或在 Fa
如何打开Lucene 4.3索引？

我是 Lucene 新手我正在尝试使用 Luke 打开 Lucene 4 3 索引我使用简单的 Lucene 4 3 1 应用程序创建但它一直给我该位置的目录无效请检查控制台以获取更多信息最后一个异常 java lang Ill
在物理设备上测试

我是否正确理解我必须支付 99 美元才能在物理设备上使用我的 Windows Phone 应用程序我制作了一个小应用程序想在我的新手机上测试但它不是我计划发布的应用程序因此我不会仅仅为了看到该应用程序在物理设备上运行而支付 99
如何使用 xunit.runner.console 指定自定义参数

我有一个 C Selenium Specflow 测试套件我正在使用 xunit console exe 使用 Jenkins 运行该测试套件我需要将这些测试指向不同的环境测试 QA 产品等并且想使用命令行参数我调用的批处理命令是
Visual Studio 2017 中实体框架“数据库优先”的替代品是什么

简单的问题我正在使用 Visual Studio 2017 虽然我知道 EF 中的数据库优先方法已经消失但我想知道替代方法是什么我特别想做的是从现有数据库生成类我看到这个 EntityFramework 反向 POCO 生成器
使用“sudo”重复上一个命令

我经常忘记运行命令sudo 我正在寻找一种方法来创建 bash 函数或别名来重复最后一个命令sudo 就像是 S sudo history 1 有任何想法吗你可以写 sudo See 9 3 历史扩展 Bash 参考手册 http w
可以使用 ggplot2 在 R 中创建此图表吗？

假设我有以下内容dataframe in R df1 lt read csv jan csv stringsAsFactors FALSE header TRUE str df1 data frame 4 obs of 5 variable
如何在 .Net MVC 中将文件从磁盘流式传输到客户端浏览器

我的操作将文件从磁盘返回到客户端浏览器目前我有 public FileResult MediaDownload byte fileBytes System IO File ReadAllBytes Server MapPath fileP
使用 jQueryUI.autocomplete 和 Backbone JS 的 Javascript 模块

假设我想使用jQueryUi autocomplete用于制作一个从 a 获取源代码的模块backboneCollection 我为自动完成模块实现了以下代码 1 并且以下为Backbone view 2 实际上我不喜欢它因为当用户不输
自定义对话框窗口棱镜

我已经实现了新的 DialogService 如本期所示WPF 的新 IDialogService https github com PrismLibrary Prism issues 1666 但是这并没有解释如何编辑对话框本身的窗口
Raspberry Pi ARM 的 Mongodb MongoClient.connect() 上出现总线错误

我尝试在 x64 计算机上执行此节点脚本它似乎工作正常然而相同的脚本在 Raspberry Pi 上运行时报告总线错误它给出了 6047 715610 未处理的故障对齐异常错误该错误作为总线错误报告在下一行该错误似乎源于 Mo
Pyspark toPandas() 越界纳秒时间戳错误

我正在尝试将 Spark DataFrame 转换为 Pandas 但是它给出以下错误 OutOfBoundsDatetime Out of bounds nanosecond timestamp 有解决办法吗如果我删除所有时间戳列它

Pyspark toPandas() 越界纳秒时间戳错误

Pyspark toPandas() 越界纳秒时间戳错误 的相关文章

随机推荐

热门标签

Pyspark toPandas() 越界纳秒时间戳错误的相关文章