在 Spark DataFrame-Scala 中格式化 TimestampType

2024-03-01

当我尝试将字符串字段转换为 Spark DataFrame 中的 TimestampType 时，输出值具有微秒精度（yyyy-MM-dd HH:mm:ss.S）。但我需要的格式是yyyy-MM-dd HH:mm:ss即，不包括微秒精度。另外，我想在写入镶木地板文件时将其保存为时间戳字段。所以我的字段的数据类型应该是格式的时间戳yyyy-MM-dd HH:mm:ss

我尝试使用 TimestampType 作为

col("column_A").cast(TimestampType)
or
col("column_A").cast("timestamp")

将字段转换为时间戳。它们能够将字段转换为时间戳，但精度为微秒。

任何人都可以帮助将时间戳数据类型保存到具有所需格式规范的镶木地板文件中。
EDIT
Input:

val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).show(false)
+----+---------------------+-------------------+
|cola|colb                 |datetime           |
+----+---------------------+-------------------+
|a   |2017-01-01 12:02:00.0|2017-01-01 12:02:00|
|b   |2017-02-01 11:22:30  |2017-02-01 11:22:30|
+----+---------------------+-------------------+


scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).printSchema
root
 |-- cola: string (nullable = true)
 |-- colb: string (nullable = true)
 |-- datetime: string (nullable = true)

在上面，我们得到了正确的时间戳格式，但是当我们打印 Schema 时，日期时间字段是 String 类型，但我这里需要一个时间戳类型。

现在，如果我尝试将字段转换为时间戳，格式将设置为微秒精度，这不是预期的。

scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._

scala> val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
a: org.apache.spark.sql.DataFrame = [cola: string, colb: string]

scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).show(false)
+----+---------------------+---------------------+
|cola|colb                 |datetime             |
+----+---------------------+---------------------+
|a   |2017-01-01 12:02:00.0|2017-01-01 12:02:00.0|
|b   |2017-02-01 11:22:30  |2017-02-01 11:22:30.0|
+----+---------------------+---------------------+


scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).printSchema
root
 |-- cola: string (nullable = true)
 |-- colb: string (nullable = true)
 |-- datetime: timestamp (nullable = true)

我期望的是格式yyyy-MM-dd HH:mm:ss以及字段的数据类型timestamp提前致谢

我认为您缺少的是时间戳/日期时间字段在本机存储中没有可读格式。格式为 float、INT96 或某些此类格式，具体取决于数据库。格式化日期时间/时间戳以提高可读性一直是报告关注的问题（即，由准备显示数据的工具执行），这就是为什么您注意到当您提供日期的字符串格式时，它会正确地将其转换为存储作为字符串。数据库（spark）仅存储准确了解时间值所需的内容。

您可以指定时间戳值没有毫秒，即毫秒值为 0，但不能指定它不应该显示毫秒。

这类似于在数字列上指定舍入行为（也是报告问题）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Spark DataFrame-Scala 中格式化 TimestampType 的相关文章

使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
Scala 中的条件未来

给定这两个 future 仅当条件为真时我才需要运行第一个 future 请参阅if y gt 2 但我有一个例外Future filter predicate is not satisfied 这是什么意思以及如何修复该示例 object
scala 如何对元组进行排序？

我试图了解 scala 如何处理元组的排序和排序例如如果我得到了列表 val l for i lt 1 to 5 yield i i 2 Vector 1 2 2 4 3 6 4 8 5 10 scala 知道如何对其进行排序 l so
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
具有通用返回类型的可选函数参数

您将如何实现通过正则表达式解析某些输入并将创建的字符串转换为其他类型的类我的做法是 class ARegex T regex Regex reform Option String gt T def findFirst input Stri
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
将多个 Future[Seq] 连接成一个 Future[Seq]

如果没有 Future 这就是我将所有较小的 Seq 组合成一个大 Seq 的方式flatmap category getCategoryUrlKey id Int Seq Meta main method val appDomains S
使用 Reader Monad 进行依赖注入

我最近看到了谈话极其简单的依赖注入 http www youtube com watch v ZasXwtTRkio and 无需体操的依赖注入 http vimeo com 44502327关于 Monads 的 DI 并留下了深刻的印象
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
使用 Apache Commons lineIterator 时出现 OutOfMemory 错误

我正在尝试使用 Apache Commons 逐行迭代 1 2GB 文件FileUtils lineIterator 然而一旦LineIterator calls hasNext 我得到一个java lang OutOfMemoryErr
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
如何插入UUID的值？

我在 Play Framework 2 3 支持的 postgresql 9 4 中使用 anorm 2 4 给出一个这样的模型 case class EmailQueue id UUID send from String send to
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
如何在 C# 中将 Json 转换为对象

我想将 Json 转换为 C 中的对象这里的 Json 是值 e920ce0f e3f5 4c6f 8e3d d2fbc51990e4 如何使用 Object 问题看似愚蠢但其实并不那么愚蠢我没有简单的 Json 我有 IEnume
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

随机推荐

花式盒子| Ajax 请求不起作用

我已经尝试了几个小时让 fancybox 加载 php 文件但没有成功详细信息如下您可以访问有问题的网站here http patrascity gr events pc pc festival 1610 diethnes festi
HTTP 转发 PLAINTEXT 警告

当我运行此 SSL 测试时 https www ssllabs com ssltest analyze html d rickschmitz network https www ssllabs com ssltest analyze htm
我可以将 Django 的 auth_user.username 字段更改为 100 个字符长而不破坏任何内容吗？

在有人将此问题标记为此问题的重复项之前django的auth user username可以是varchar 75 吗怎么可能呢 https stackoverflow com questions 2610088 can djangos
Libgdx 项目线程“LWJGL 应用程序”中出现异常。无法加载文件。里面有错误日志

我是新手libgdx刚刚在 android studio 中设置好了现在当我第一次按运行时我收到此错误 Library Java JavaVirtualMachines jdk1 8 0 05 jdk Contents Home bi
ReactJS - 新 useState React 挂钩中的 prevState？

我真的很喜欢新的反应钩子 https reactjs org docs hooks state html我经常在我正在进行的项目中使用它们我遇到了一种情况我想使用上一个状态 in the useState钩子但我不太确定如何做到这一点
检查 Android 中是否设置了电子邮件帐户

如果设置了电子邮件帐户如何在 Android 中查看您可以使用客户经理 http developer android com reference android accounts AccountManager html在 Android
JDBC & 死锁避免问题（基础）

我正在使用 JDBC 通过 Spring 的 JDBCTemplate 访问数据库中的少量表虽然我还没有发生任何事情但我担心可能会出现僵局我的印象是有一种方法可以为访问多个表的查询指定锁定顺序以避免死锁但我不知道这是否是创建表时在数
我是否必须在清单文件中声明每项活动？

我想创建一个 Activity 但不必在清单文件中声明它这可能吗在我见过的所有地方似乎每个活动都必须在清单中声明但我注意到某些活动例如内置的 ChooserActivity 并未在我的清单文件中声明简短的回答是的应用程序中的
将 Symfony2 资产转储到 Amazon S3

在 Symfony 2 中使用 capifony 进行部署后我想将我的资产转储到生产中的 s3 存储桶中我找到了一些解决方案但并没有真正找到最好使用的解决方案可以使用 Zend Service Amazon S3 转储资产但我认为
Visual Studio 2015 更新 2 - “Scc 显示信息包未正确加载”

在带有 Update 2 的 Visual Studio 2015 中加载项目 VS 启动时自动加载或手动加载时我收到一条错误消息 Scc 显示信息包未正确加载活动日志有
如何获取 .nupkg 文件的 url？

我想使用浏览器下载一些 nupkg 文件在 nuget org 中没有指向 nupkg 文件的链接 URL 通常采用以下格式 http nuget org api v2 package PACKAGE ID VERSION 例如对于
如何将日期时间从一个时区转换为另一时区

记录是根据美国时区保存的但如果我想向用户显示相同的记录则应该将服务器日期时间美国时区转换为用户的日期时间和用户时区如果您在 google 中输入 Java 日期更改时区或 Javascript 日期更改时区您将得到以下结果之一
设置图表的线条粗细 - Achart 引擎

我正在为我的 Android 手机应用程序使用 AchartEngine 一切看起来都很好但渲染图形的线条粗细似乎不太好我想增加这些图表的厚度好的我得到答案了它应该类似于下面的内容 int length renderer getS
如何部署多个版本的CodePush捆绑包？

我读过有关targetBinary旗帜和我也读过this https stackoverflow com questions 34869548 codepush how to deploy to multiple build version
无法运行 Rails 服务器：`require'：无法加载此类文件 -- net/ssh (LoadError)

我正在尝试使用 michael hartl 指南来学习 ruby on Rails 过去我能够完成新的 Rails Web 应用程序的设置现在当我尝试运行服务器时出现以下错误 home ss rvm gems ruby 2 2 2
java.sql.SQLException：客户端尝试签出连接已超时

我有一个java客户端服务器它应该在启动时建立连接池但它因超时错误而失败关于同一问题有很多线程但没有一个解决方案对我有用 AM使用jdk 7及以下是mchange maven依赖
导入 pandas.DataFrame 时出现“IOError：[Errno 13]权限被拒绝：..”

我正进入状态 IOError Errno 13 Permission denied usr local lib python2 7 dist packages python dateutil 2 2 py2 7 egg EGG INFO
Haskell 中的电影数据库

目前正在尝试解决我的 haskell 程序中的两个主要问题显示给定用户喜欢的所有电影显示指定演员在某个时间段内发行的所有电影特定时期即给定的开始年和结束年之间这是我当前正在使用的示例数据库 type Title String ty
有没有办法让 MySQL 服务器将数据库更新“推送”到客户端程序？

一个典型的场景假设用户正在向 MySQL 提供数据而客户端远程连接到 MySQL 每当用户更新数据库中的字段时我希望立即通知客户端将此视为黑莓的推送邮件功能我不想要的是客户端必须偶尔 ping MySQL 服务器以查看是否有任
在 Spark DataFrame-Scala 中格式化 TimestampType

当我尝试将字符串字段转换为 Spark DataFrame 中的 TimestampType 时输出值具有微秒精度 yyyy MM dd HH mm ss S 但我需要的格式是yyyy MM dd HH mm ss即不包括微秒精度另外

在 Spark DataFrame-Scala 中格式化 TimestampType

在 Spark DataFrame-Scala 中格式化 TimestampType 的相关文章

随机推荐

热门标签