Spark sql字符串到时间戳缺少毫秒

2024-02-09

Why is:

import spark.implicits._
  val content = Seq(("2019", "09", "11","17","16","54","762000000")).toDF("year", "month", "day", "hour", "minute", "second", "nano")
  content.printSchema
  content.show
  content.withColumn("event_time_utc", to_timestamp(concat('year, 'month, 'day, 'hour, 'minute, 'second), "yyyyMMddHHmmss"))
    .withColumn("event_time_utc_millis", to_timestamp(concat('year, 'month, 'day, 'hour, 'minute, 'second, substring('nano, 0, 3)), "yyyyMMddHHmmssSSS"))
    .select('year, 'month, 'day, 'hour, 'minute, 'second, 'nano,substring('nano, 0, 3), 'event_time_utc, 'event_time_utc_millis)
    .show

缺少毫秒？

+----+-----+---+----+------+------+---------+---------------------+-------------------+---------------------+
|year|month|day|hour|minute|second|     nano|substring(nano, 0, 3)|     event_time_utc|event_time_utc_millis|
+----+-----+---+----+------+------+---------+---------------------+-------------------+---------------------+
|2019|   09| 11|  17|    16|    54|762000000|                  762|2019-09-11 17:16:54|  2019-09-11 17:16:54|
+----+-----+---+----+------+------+---------+---------------------+-------------------+---------------------+

对于格式字符串：yyyyMMddHHmmssSSS其中应包括毫秒SSS如果我没有记错的话。

我也遇到过类似的问题，官方Document https://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/functions.html#to_timestamp-org.apache.spark.sql.Column-java.lang.String-下线说直到火花:

将时间字符串转换为 Unix 时间戳（很快）与指定的格式（参见 [http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html] http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html%5D）转为 Unix 时间戳（很快），如果失败则返回null。

这意味着它只处理秒。

火花>= 2.4 https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/functions.html#to_timestamp-org.apache.spark.sql.Column-java.lang.String-可以处理SSS以及。

解决方案： Below UDF将有助于处理这种情况：

import java.text.SimpleDateFormat
import java.sql.Timestamp
import org.apache.spark.sql.functions._
import scala.util.{Try, Success, Failure}

val getTimestampWithMilis: ((String , String) => Option[Timestamp]) = (input, frmt) => input match {
  case "" => None
  case _ => {
    val format = new SimpleDateFormat(frmt)
    Try(new Timestamp(format.parse(input).getTime)) match {
      case Success(t) => Some(t)
      case Failure(_) => None
    }    
  }
}

val getTimestampWithMilisUDF = udf(getTimestampWithMilis)

对于你的例子：

val content = Seq(("2019", "09", "11","17","16","54","762000000")).toDF("year", "month", "day", "hour", "minute", "second", "nano")
val df = content.withColumn("event_time_utc", concat('year, 'month, 'day, 'hour, 'minute, 'second, substring('nano, 0, 3)))
df.show
+----+-----+---+----+------+------+---------+-----------------+
|year|month|day|hour|minute|second|     nano|   event_time_utc|
+----+-----+---+----+------+------+---------+-----------------+
|2019|   09| 11|  17|    16|    54|762000000|20190911171654762|
+----+-----+---+----+------+------+---------+-----------------+

df.withColumn("event_time_utc_millis", getTimestampWithMilisUDF($"event_time_utc", lit("yyyyMMddHHmmssSSS"))).show(1, false)
+----+-----+---+----+------+------+---------+-----------------+-----------------------+
|year|month|day|hour|minute|second|nano     |event_time_utc   |event_time_utc_millis  |
+----+-----+---+----+------+------+---------+-----------------+-----------------------+
|2019|09   |11 |17  |16    |54    |762000000|20190911171654762|2019-09-11 17:16:54.762|
+----+-----+---+----+------+------+---------+-----------------+-----------------------+

root
 |-- year: string (nullable = true)
 |-- month: string (nullable = true)
 |-- day: string (nullable = true)
 |-- hour: string (nullable = true)
 |-- minute: string (nullable = true)
 |-- second: string (nullable = true)
 |-- nano: string (nullable = true)
 |-- event_time_utc: string (nullable = true)
 |-- event_time_utc_millis: timestamp (nullable = true)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

timestamp

milliseconds

formatstring

Spark sql字符串到时间戳缺少毫秒的相关文章

使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Authenticode 的替代时间戳服务

我们为所有生产版本执行代码签名和时间戳偶尔通常是当我们即将 RTM Verisign 的时间戳服务器 http timestamp verisign com scripts timstamp dll http timestamp ver
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
PHP 中的 NOW() 函数

是否有 PHP 函数以与 MySQL 函数相同的格式返回日期和时间NOW 我知道如何使用date 但我想问是否有专门用于此的功能例如返回 2009 12 01 00 00 00 您可以使用date https www php net m
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
Django 模型：默认日期时间未转换为 SQL CURRENT_TIMESTAMP

我正在使用 Django 模型创建 PostgreSQL DB 我有一个 DateTimeField 我想将当前时间戳设置为默认值我知道有多个消息来源建议如何做到这一点但是当我在 Django 之外检查数据库时默认时间戳不会显示我
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB

随机推荐

C 中的“CALLBACK”声明有什么作用？

我正在查看一些代码SDL http www libsdl org库并遇到了这样声明的函数 LRESULT CALLBACK WndProc HWND hwnd UINT msg WPARAM wParam LPARAM lParam 现在
Apigee - 配置 API 代理时出现问题

我正在寻找一种方法将客户的 WCF 服务公开为 REST 服务并创建所有安全堆栈以支持声明 oauth 身份验证和授权我正在研究两种不同的方法来做到这一点创建一个新的 REST 服务它将充当代理将我的 WCF 服务公开为 REST
使用 PHP 根据 Schematron 验证 XML

有很多关于 Schematront 的资源但是我找不到任何相关内容或有关如何根据 Schematront sch 文件验证 xml 的示例 Anyone 我已经发现 1 或 2 个非常旧的类会返回错误所以如果有人知道如何做到这一点请提
Google Play 服务过期错误

我的 google play service 有问题我正在使用 Google API 进行 oAuth2 身份验证和日历 Gmail 信息昨天一切正常但今天他告诉我我需要更新版本的 Google PLay 服务 Android St
客户我的帐户订单历史记录中不显示自定义订单状态

在 WooCommerce 中我制作了 2 个自定义订单状态第一个是运输状态另一个是批准状态在我将一些订单状态更改为这两个新状态分别是shipping or approved 客户无法在其订单历史记录页面查看此订单这是我的代
git merge --strategy 与 --strategy-option

git merge 选项有什么区别 strategy option short X and strategy short s 有很多关于合并策略 https stackoverflow com questions 366860 when w
switch 因被 JSHint 忽略而失败

我正在运行我的代码JSHint http www jshint com 我遇到了这个错误预计break之前的声明case 在这段代码中 switch true Renames skill1 abc to section 8 1 body
如何向远程服务器添加 ssh 密钥？ [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案在我的 VPS 中运行ssh add l它返回 The agent has no identities 但我已经跑了cat ssh
如何在 Ruby 中删除字符串中的最后一个元音？

如何定义字符串中的最后一个元音例如我有一个词经典我想找到单词 class 的最后一个元音ic 是字母 i 并删除最后一个元音我在想 def vowel str result new str split i new length 1
解决方法：汇总下游测试结果

据我所知聚合下游测试结果功能并没有按预期工作并且很难找到有用的文档我想实现非常相似的功能 Job Build触发工作T1 T2并行其中T1FindBugs T2PMD 场景一立刻T1 and T2已完成我可以使用加入插件来
如何使用参数传递对函数的引用？ [复制]

这个问题在这里已经有答案了可能的重复如何在 JavaScript 函数调用中预先设置参数部分功能应用 https stackoverflow com questions 321113 how can i pre set argumen
微服务依赖管理 - 治理还是领域驱动设计？

背景由于长期的单体式痛苦一家采用联邦模式的国际公司正在转型为微服务能够快速部署的自治团队是非常理想的尽管理论上如此但服务确实相互依赖以获得更高的功能但它们是自治的独立开发和部署由于这是联邦模式和分散控制我们不能像联合国那样
Java 安全管理器会降低性能吗？

实施 Java 安全管理器是否会导致性能下降这完全取决于实现的细节以及应用程序当然有可能实现一个需要很长时间来检查某些权限的安全管理器以及一个需要非常频繁地检查这些权限的应用程序从而导致可怕的性能但通常情况下检查权限的频率不足以
在 Firebase 数据库模拟器中模拟更新

我的问题很简单我不知道如何在 Firebase Simulator 中模拟多个更新由于我什至不知道如何开始所以我无法提供任何代码任何指导都会非常有帮助目前无法在 Firebase 数据库安全规则模拟器中执行多位置更新拥有该功能就
OS X 上的 ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败 (_ssl.c:747)

我正在尝试这段代码 import pandas as pd fiddy states pd read html https simple wikipedia org wiki List of U S states print fiddy s
所有编译时常量都是内联的吗？

假设我有一堂这样的课 class ApplicationDefs public static final String configOption1 some option public static final String configO
使用 django 和 xgettext 进行本地化

我正在翻译我的网站但是当我尝试运行命令时 manage py makemessages locale bs 我不断收到如下错误 CommandError errors happened while running xgettext on
将图像添加到 pandas DataFrame

假设我有一个 DataFrame 我想导出为 PDF 在数据框中我有以下列代码名称价格净值销售额每一行都是一个产品我想向该 DataFrame 中的每个产品添加一个我可以使用 BeautifulSoup 获得的图像有什么方
网页设计：“向下滚动导航”

某些网络应用程序中使用的技术是什么例如http www alfredapp com http www alfredapp com导航在哪里向下滚动网站以显示另一个网站为了获得这种导航方式我会将所有内容放在一个页面上并使用平滑滚动效果
Spark sql字符串到时间戳缺少毫秒

Why is import spark implicits val content Seq 2019 09 11 17 16 54 762000000 toDF year month day hour minute second nano

Spark sql字符串到时间戳缺少毫秒

Spark sql字符串到时间戳缺少毫秒 的相关文章

随机推荐

热门标签

Spark sql字符串到时间戳缺少毫秒的相关文章