Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）

2023-12-14

问题是：我有一个数据集，其中一列具有两种或多种日期格式。一般来说，我选择所有值作为字符串类型，然后使用to_date解析日期。但我不知道如何解析具有两种或多种日期格式的列。

val DF= Seq(("02-04-2020 08:02"),("03-04-2020 10:02"),("04-04-2020 09:00"),("04/13/19 9:12"),("04/14/19 2:13"),("04/15/19 10:14"), ("04/16/19 5:15")).toDF("DOB")

import org.apache.spark.sql.functions.{to_date, to_timestamp}
val DOBDF = DF.withColumn("Date", to_date($"DOB", "MM/dd/yyyy"))

上述命令的输出：

null
null
null
0019-04-13
0019-04-14
0019-04-15
0019-04-16

我写的上面的代码不适用于该格式MM/dd/yyyy以及我得到的未提供的格式null作为输出。

因此寻求帮助来解析具有不同日期格式的文件。如果可能的话，还请分享一些处理日期格式的教程或注释。请注意：我使用 Scala 作为 Spark 框架。

提前致谢。

Check EDIT在此解决方案的后面部分中，使用列函数而不是 UDF 来提高性能 -

好吧，让我们以 try-catch 的方式进行操作。尝试针对每种格式进行列转换并保留成功值。您可能必须从外部提供所有可能的格式作为参数，或者在代码本身的某个位置保留所有可能格式的主列表。

这是可能的解决方案..（我使用新库 - java.time.format.DateTimeFormatter，而不是有时在时间戳上出现问题的 SimpleDateFormatter）

创建一个 to_timestamp 函数，它接受字符串转换为时间戳和所有可能的格式

  import java.time.LocalDate
  import java.time.LocalDateTime
  import java.time.LocalTime
  import java.time.format.DateTimeFormatter
  import scala.util.Try

def toTimestamp(date: String, tsformats: Seq[String]): Option[java.sql.Timestamp] = {

    val out = (for (tsft <- tsformats) yield {
      val formatter = new DateTimeFormatterBuilder()
        .parseCaseInsensitive()
        .appendPattern(tsft).toFormatter()
      if (Try(java.sql.Timestamp.valueOf(LocalDateTime.parse(date, formatter))).isSuccess)
        Option(java.sql.Timestamp.valueOf(LocalDateTime.parse(date, formatter)))
      else None

    }).filter(_.isDefined)
    if (out.isEmpty) None else out.head
  }

在其之上创建一个 UDF -（此 udf 将格式字符串的 Seq 作为参数）

 def UtoTimestamp(tsformats: Seq[String]) = org.apache.spark.sql.functions.udf((date: String) => toTimestamp(date, tsformats))

现在，只需在您的 Spark 代码中使用它即可。这是对您的数据的测试 -

    val DF = Seq(("02-04-2020 08:02"), ("03-04-2020 10:02"), ("04-04-2020 09:00"), ("04/13/19 9:12"), ("04/14/19 2:13"), ("04/15/19 10:14"), ("04/16/19 5:15")).toDF("DOB")

    val tsformats = Seq("MM-dd-yyyy HH:mm", "MM/dd/yy H:mm")

    DF.select(UtoTimestamp(tsformats)('DOB)).show

这是输出 -

+-------------------+
|           UDF(DOB)|
+-------------------+
|2020-02-04 08:02:00|
|2020-03-04 10:02:00|
|2020-04-04 09:00:00|
|2019-04-13 09:12:00|
|2019-04-14 02:13:00|
|2019-04-15 10:14:00|
|2019-04-16 05:15:00|
+-------------------+

最重要的是避免为数据框中的许多列编写 UtoTimestamp(colname) 。让我们编写一个函数，它接受数据帧、所有时间戳列的列表以及源数据可能编码时间戳的所有可能格式。

它会为您解析所有时间戳列，并尝试针对格式。

def WithTimestampParsed(df: DataFrame, tsCols: Seq[String], tsformats: Seq[String]): DataFrame = {

    val colSelector = df.columns.map {
      c =>
        {
          if (tsCols.contains(c)) UtoTimestamp(tsformats)(col(c)) alias (c)
          else col(c)
        }
    }

像这样使用它 -

// You can pass as many column names in a sequence to be parsed
WithTimestampParsed(DF, Seq("DOB"), tsformats).show

Output -

+-------------------+
|                DOB|
+-------------------+
|2020-02-04 08:02:00|
|2020-03-04 10:02:00|
|2020-04-04 09:00:00|
|2019-04-13 09:12:00|
|2019-04-14 02:13:00|
|2019-04-15 10:14:00|
|2019-04-16 05:15:00|
+-------------------+

EDIT- 我看到了最新的 Spark 代码，他们现在还使用 java.time._ utils 来解析日期和时间戳，从而能够处理超过毫秒的数据。早期这些函数基于 SimpleDateFormat （我之前并不依赖于 Spark 的 to_timestamps ，因为这个限制）。

因此，现在 to_date 和 to_timestamp 函数非常可靠。让我们使用它们，而不必编写 UDF。让我们编写一个对列进行操作的函数。

def to_timestamp_simple(col: org.apache.spark.sql.Column, formats: Seq[String]): org.apache.spark.sql.Column = {
    coalesce(formats.map(fmt => to_timestamp(col, fmt)): _*)
  }

有了这个 WithTimestampParsed 看起来像 -

def WithTimestampParsedSimple(df: DataFrame, tsCols: Seq[String], tsformats: Seq[String]): DataFrame = {

    val colSelector = df.columns.map {
      c =>
        {
          if (tsCols.contains(c)) to_timestamp_simple(col(c), tsformats) alias (c)
          else col(c)
        }
    }

    df.select(colSelector: _*)
  }

并像这样使用它 -

DF.select(to_timestamp_simple('DOB,tsformats)).show

//OR

WithTimestampParsedSimple(DF, Seq("DOB"), tsformats).show

输出看起来像 -

+---------------------------------------------------------------------------------------+
|coalesce(to_timestamp(`DOB`, 'MM-dd-yyyy HH:mm'), to_timestamp(`DOB`, 'MM/dd/yy H:mm'))|
+---------------------------------------------------------------------------------------+
|                                                                    2020-02-04 08:02:00|
|                                                                    2020-03-04 10:02:00|
|                                                                    2020-04-04 09:00:00|
|                                                                    2019-04-13 09:12:00|
|                                                                    2019-04-14 02:13:00|
|                                                                    2019-04-15 10:14:00|
|                                                                    2019-04-16 05:15:00|
+---------------------------------------------------------------------------------------+

+-------------------+
|                DOB|
+-------------------+
|2020-02-04 08:02:00|
|2020-03-04 10:02:00|
|2020-04-04 09:00:00|
|2019-04-13 09:12:00|
|2019-04-14 02:13:00|
|2019-04-15 10:14:00|
|2019-04-16 05:15:00|
+-------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

date

apachespark

datetime

apachesparksql

Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）的相关文章

如何使用 `ProjectRef` 来引用 sbt 1.x 中的本地项目？

其他答案中有很多含糊不清的内容或者涉及到更旧版本的 sbt 即 0 12 x 但似乎没有人真正回答这个问题鉴于我有一个文件夹并且我已经运行 sbt new scala scala seed g8 name Scala Seed Pro
具有多种日期时间表示形式的 CultureInfo

假设我们有一个 WCF 服务需要一些时间DateTime对象并使用它我们有一个以格式发送它的客户端dd mm yyyy 但是这个服务也是从 JS 调用的它应该发送准确的DateTime 这就是为什么它使用yyyy MM ddTHH m
如何通过 Scala REPL 使用第三方库？

我已经下载了Algebird我想尝试一些事情Scala 解释器使用这个库我该如何实现这一目标当然您可以使用 scala cp 无论如何并手动管理您的依赖项但这变得非常乏味尤其是当您有多个依赖项时更灵活的方法是使用sbt http
从会话中读取数据时如何发出加特林捕获请求？

根据加特林文档 http gatling io docs 2 1 7 session session api html 我可以在执行场景时使用会话属性但是每次我在场景中使用函数文字访问会话时都会遇到以下异常 error java la
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
Scala 'null' 是否算作另一种类型的实例？

我有这个代码 class MyLinkedList T h T tail MyLinkedList T def prepend v T MyLinkedList T new MyLinkedList v this 我想知道我如何可以将第二个
Python Pandas 系列失败日期时间

我认为这一定是 pandas 的失败有一个 pandas 系列 v 18 1 和 19 如果我为该系列分配一个日期第一次将其添加为 int 错误第二次将其添加为 int 错误添加为日期时间正确我无法理解原因例如使用以下代码 i
在 LINQ 中确定具有分钟精度的日期时间值的相等性

我需要使用分钟精度比较两个日期时间值以确定相等完全相同这是最好的方法吗我的日期可能有秒和毫秒但我只想考虑到分钟 where Math Abs datetime1 Subtract datetime2 TotalMinutes 0 检
SQL如何显示某个日期之前的数据

我有几张桌子一个是一个工人表显示工人代码名字和姓氏工作日期其中显示工人代码工作开始日期结束日期和工作区域代码导师有工人编号名字姓氏和工作区号 Job area有工作区域代码名称和主管我想要做的是在日期 10 09 10 之
用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
如何制作具有固定日期格式的jtextfield？

我在使用创建固定日期格式时遇到问题JTextField 有没有办法JTextField有固定的日期格式您可以将 JFormattedTextField 与简单日期格式 http docs oracle com javase 7 docs
Scala：将整个列表的 Either 与每个元素的 Either 组合

我有一个 Either 列表它代表错误 type ErrorType List String type FailFast A Either ErrorType A import cats syntax either val l List
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
java Web应用程序中的日期转换

String date1 13 03 2014 16 56 46 AEDT SimpleDateFormat sdf new SimpleDateFormat dd MM yyyy HH mm ss z sdf setTimeZone Ti

随机推荐

我听说 i++ 不是线程安全的，++i 线程安全吗？

我听说 i 不是线程安全的语句因为在汇编中它减少为将原始值存储为临时值递增它然后替换它这可能会被上下文切换中断但是我想知道 i 据我所知这将减少为一条汇编指令例如 add r1 r1 1 并且由于它只是一条指令因此它不会被
后台Worker实现

这是我的后台工作DoWor函数考虑到GUI操作的实现好吗 private void backgroundWorker1 DoWork object sender System ComponentModel DoWorkEventArgs
C# Flurl - 将 WebRequestHandler 添加到 FlurlClient

我正在与Flurl访问需要基于证书的身份验证的 API 我已经看到从这个帖子将证书添加到WebRequestHandler并指示HttpClient使用这个处理程序很容易然而我对 Flurl 的使用不太清楚我尝试过以下三件事扩展 D
将数据从 javascript 弹出多行文本框传输到选择控件

我正在尝试将数据从多行文本框传输到选择控件多行文本框显示为弹出窗口我希望用户在弹出窗口中单击提交后将粘贴在文本框中的所有记录传输到选择控件可能使用 jquery 或 javascript 或者其他东西该页面是用 MVC3 Ra
使用 XPutImage 显示 png 文件不起作用

我尝试使用 xputimage 在 xwindow 中显示 png 文件但 xputimage 抛出以下错误窗口宽度 426 高度 341 X 请求失败错误 BadMatch 参数属性无效失败请求的主要操作码 72 X PutImag
用于创建具有特定名称的新文件的 Github URL？

我知道你可以使用这个网址github com
JS - import '@foo/bar' 中 @ 的含义

在阅读本文时article早些时候我遇到了以下代码行 import run from cycle core 这让我产生了以下问题有何意义符号如果有的话之间有区别吗import foo bar and import foo bar
如何在 HTML 中嵌入 SWF？

如何在 HTML 中嵌入 SWF 非官方行业标准是使用SWF对象文档
Windows 上的 Erlang 列表理解乘法给出“\f”

大家好我在 Windows 上运行 Erlang 时遇到一个奇怪的问题我运行的是 16B 和 WinXP 我有以下代码 module test export cost 1 total 1 cost orange gt 5 cost ap
Azure 连接字符串异常“发生与网络相关或实例特定的错误”

尝试使用以下连接字符串连接到 SQL Azure 时服务器 tcp SERVER database windows net 1433 数据库 DBNAME 用户ID USER SERVER 密码 PASSWORD Trusted Conn
在生产 Azure Service Fabric 群集中找不到 libsodium-64.dll

在 Azure Service Fabric 可靠服务中使用 libsodium net 来发挥其所有安全优势在我的本地开发集群上一切都工作正常尽管我必须将 libsodium 64 dll 设置为复制到输出目录不幸的是当部署到
如何从 apply.monthly 函数中提取日期

如果我有一组每日数据我想获取每个月的最小值以及该值发生的日期如果我使用apply monthly函数它给了我最小值但相应的日期是每个月的月底而不是实际发生的日期我怎样才能得到正确的日期 library xts create sa
当传递大的逗号分隔值时，使用自定义 TABLE TYPE 作为参数而不是 SQL“IN”子句是否更好

我有一个存储过程它接受逗号分隔的字符串作为输入有时可能太大大约超过 8000 个字符或更多在这种情况下查询性能有时会下降我认为里面的字符长度有限制IN条款为此有时我会遇到错误现在我需要知道使用自定义表类型作为参数并使用是
R 查询 '$'()

我创建了一个数据框并尝试访问数据框中的列代码如下图 df lt data frame n c A B C mark 1 c 23 25 17 mark 2 c 45 46 50 j lt paste mark 1 sep j f lt d
LUIS 应用程序无法训练 - 应用程序训练失败：l_general：重新训练

我无法再构建和训练我的调度员 LUIS 应用程序如果我尝试运行调度 CLI 来刷新我的调度程序模型例如dispatch refresh dispatch mydispatchfile dispatch 它会挂在训练调度模型上并最终返回
在 Magento 中以编程方式添加面包屑路径？

在 Magento 中当用户直接访问产品页面例如从 Google 时面包屑导航将仅为主页 gt 产品名称即使用户直接从 Google 访问页面我如何在其中添加类别例如关于这一页我想在面包屑中添加婚礼服装和婚礼礼服类
无法将集合与 InExpression 一起使用

我刚刚深入研究了一些 NHibernate 但我在必须编写的一个更复杂对我来说的查询中遇到了麻烦场景是我有一个员工对象其中附加了一系列技能我想传递一个技能列表来查询例如如果我只想要可以烹饪或编码或两者兼而
twitter bootstrap 中水平表单内的内联表单？

在 Twitter Bootstrap 中设计一个看起来像这样的表单请参阅下面的链接而不需要任何自制类的最佳方法是什么是否可以在水平表单内设置内部表单内联如下例所示不要筑巢
如何从 Makefile 设置 MAKEFLAGS，以删除默认的隐式规则

我尝试以下 makefile MAKEFLAGS s MAKEFLAGS r configure 然后当我运行 make 时我收到以下错误好像它想编译 configure 每default隐式规则 usr bin ld usr lib
Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）

问题是我有一个数据集其中一列具有两种或多种日期格式一般来说我选择所有值作为字符串类型然后使用to date解析日期但我不知道如何解析具有两种或多种日期格式的列 val DF Seq 02 04 2020 08 02 03 04

Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）

Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm） 的相关文章

随机推荐

热门标签

Spark：解析数据帧同一列中不同格式的日期/时间戳（MM-dd-yyyy HH:mm、MM/dd/yy H:mm）的相关文章