在 Spark Dataframe 中将字符串转换为日期

2023-11-29

我有一个数据框（df1）与 2StringType fields.

Field1（字符串类型）值-X

Field2（字符串类型）值-20180101

我想做的就是创建另一个数据框（df2) from df1有 2 个字段-

Field1（字符串类型）值-X

Field2（日期类型）值-2018-01-01

我正在使用下面的代码-

df2=df1.select(
     col("field1").alias("f1"),
     unix_timestamp(col("field2"),"yyyyMMdd").alias("f2")
)

df2.show

df2.printSchema

对于这个字段 2，我尝试了多种方法 -unix_timestamp , from_unixtimestamp, to_date, cast(“date”)但没有任何作用

我需要以下架构作为输出：

df2.printSchema
|-- f1: string (nullable = false)
|-- f2: date (nullable = false)

我正在使用 Spark 2.1

to_date似乎可以很好地满足您的需要：

import org.apache.spark.sql.functions._

val df1 = Seq( ("X", "20180101"), ("Y", "20180406") ).toDF("c1", "c2")

val df2 = df1.withColumn("c2", to_date($"c2", "yyyyMMdd"))

df2.show
// +---+----------+
// | c1|        c2|
// +---+----------+
// |  X|2018-01-01|
// |  Y|2018-04-06|
// +---+----------+

df2.printSchema
// root
//  |-- c1: string (nullable = true)
//  |-- c2: date (nullable = true)

[UPDATE]

对于 Spark 2.1 或更早版本，to_date不将格式字符串作为参数，因此显式字符串格式化为标准yyyy-MM-dd格式使用，例如，regexp_replace需要：

val df2 = df1.withColumn(
  "c2", to_date(regexp_replace($"c2", "(\\d{4})(\\d{2})(\\d{2})", "$1-$2-$3"))
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

在 Spark Dataframe 中将字符串转换为日期的相关文章

如何在 Scala 中使用 Circe 解码 JSON 列表/数组

我有代码片段 cursor downField params downField playlist downField items as List Clip 其中 Clip 是字符串和数字的简单 case 类传入的 Json 应包含一个
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
Scalaz 状态 monad 示例

我还没有看到很多 scalaz 状态单子的例子有这个例子 http scalaz github com scalaz scalaz 2 9 1 6 0 2 doc sxr scalaz example ExampleState scala
根据类的类型参数在方法中使用 Poly1 映射到 HList

我有类参数化为HList和其他一些类型我该如何使用map on HList在其方法之一中编译此代码会抛出java lang AssertionError class Test L lt HList P l L p P type Con
scala 中的抽象类型

我正在经历抽象类型Scala我收到一个错误我正在尝试的例子 scala gt class Food abstract class Animal type SuitableFood lt Food def eat food Suitable
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
使用 Either 处理 Scala 代码中的故障

Optionmonad 是 Scala 中处理有或无事物的一种很好的表达方式但是如果在什么也没发生时需要记录一条消息怎么办根据 Scala API 文档 Either 类型通常用作 scala Option where Left
Scala 模式与 TypeTag 的泛型匹配会生成警告，而 ClassTag 不会？

我有两种非常相似的方法唯一的区别是使用ClassTag and TypeTag def matchClass A ClassTag v Any v match case a A gt it s A case gt not A def ma
e:B, f:(B,A)=>B) : B 是什么意思

我对这意味着什么感到困惑我理解柯里化但我似乎无法完全阅读代码 def foldLeft A B xs List A e B f B A gt B B 只是几个建议顺便说一句里面没有柯里化 def foldLeft A B xs Li
我如何判断我的 Spark 工作是否有进展？

我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算这是当我这样做时纱线所说的yarn application status
takeOrdered 降序 Pyspark

我想按值对 K V 对进行排序然后取最大的五个值我设法用第一个地图恢复 K V 用 FALSE 按降序排序然后将 key value 反转到原始第二个地图然后取前 5 个最大的值代码是这样的 RDD map lambda x x
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
在 Scala 中生成数字的质因数

如何在 Scala 中生成整数的因子这是我的看法1 def factorize x Int List Int def foo x Int a Int List Int if a gt Math pow x 0 5 return List
写入 Delta 表时检测到架构不匹配 - Azure Databricks

我尝试将 small radio json json 加载到 Delta Lake 表在此代码之后我将创建表我尝试创建 Delta 表但收到错误写入 Delta 表时检测到架构不匹配可能与分区有关events write form
Scala 2.10、Double.isNaN 和拳击

在 Scala 2 10 中是someDouble isNaN预计装箱运行我的代码调用 isNaN通过反编译器我仍然看到对double2Double在我的代码中鉴于新的AnyVal在 2 10 中工作我希望它不会比java lan
Scalaz 7 Iteratee 处理大型 zip 文件（OutOfMemoryError）

我正在尝试使用 scalaz iteratee 包在恒定空间中处理大型 zip 文件我需要对 zip 文件中的每个文件执行一个长时间运行的进程这些进程可以并且应该并行运行我创建了一个EnumeratorT使每个膨胀ZipEntry
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
Scala 重载构造函数和 super

我无法理解如何在 Java 上开发类似于以下的 Scala 代码 public abstract class A protected A protected A int a public abstract class B protected
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null

随机推荐

jQuery Ajax请求内容下载为空

我有一个以 PDF 格式返回输出的 PHP 文件如果我直接访问该文件则工作正常我想通过 AJAX 检索 PDF 文件在原生 Javascript 中它工作得很好 var req new XMLHttpRequest req ope
如何使用 SVG 翻译将 d3.js 投影居中到给定的纬度和经度值？

我正在使用 d3 渲染 GeoJSON 世界地图的墨卡托投影我希望能够使用 d3 进行缩放并在用户逐步执行我的应用程序时将地图转换为已知的纬度和经度值 projection center https github com mbostoc
将文件中的部分 url 替换为 sed

我有一个充满网址的文件如下所示 https testing this string for now 我需要专门使用 sed 将它们全部替换为 https testing this now 并在最后保存更新内容的文件所以实际上删除无论
如何通过 bat 文件关闭、重新启动或注销 Windows？

我一直在使用远程桌面连接进入工作站但在这种环境下我无法使用开始菜单中的电源选项我需要一种替代方法来关闭或重新启动如何通过命令行控制计算机的电源状态最常见的使用方法shutdown命令是 shutdown s 关闭 shutdo
使用“asyncio”在单独的线程中运行的高速公路中从外部发送消息

我想从 MyServerProtocol 类外部调用 sendMessage 方法并向服务器发送消息答案是very如同this 但我需要使用 asyncio 而不是 twins 有人可以建议我一个解决方案吗一个例子源自this也将不胜感
Angular 4 以 HTML 形式输出完整的 HTML 语法代码作为原始文本

我搜索了所有可能的答案但没有一个有效所有innerHTML 和PRE 标记示例都适用于代码或文本但不适用于HTML 这正是我想要放入变量中的内容 div div
以编程方式向文本块添加一行

我知道如何向画布网格布局添加控件只需调用canvas Childern Add 但是当我想在文本块中嵌入某些内容时我似乎找不到它的方法文本块不包含Add方法或任何东西所以我有点迷失了我试图转换成 C 的 XAML 是
让 VSCode 使用全局 python 配置，而不是虚拟环境？

我想使用 Visual Studio Code 来编辑 Python 程序为了保持其可移植性我希望将 Python 程序包含在 Python 虚拟环境中为了保持 venv 小我想只安装 Python 程序需要的东西并且特别不安装
Unity3D - 我可以使用 .NET 4.5 程序集作为外部库吗？

我想使用在 NET Framework v4 5 中实现的一组功能由于Unity3D在Mono运行时运行相当于 NET 3 5 我认为使用 NET4 5程序集作为外部插件是否可以如果可能该库将使用哪个运行时 Mono 或程序集的目
Python IDLE：更改 Python 版本

我的机器上有 Python 2 x 和 3 x Mac OS X 10 6 对于某些事情我想使用版本 2 但对于其他事情我想要版本 3 我喜欢用于编辑运行的 IDLE 软件但它总是使用版本 3 有什么方法可以更改IDLE使用的解释器的版
我们如何使用 Watson Discovery Service 获取文档文件 URL？

我没有看到使用可用 api 文档的解决方案它在 Web 控制台上也不可用是否有可能获得file url使用沃森发现服务如果您需要存储原始源文件 URL 您可以将其作为字段包含在 Discovery 服务的文档中然后您将能够在需要时
Unity3D连接MySQL错误

我正在尝试让 Unity 客户端建立与 MySQL 服务器的连接纯粹用于读取建立连接时出现错误 My Code using UnityEngine using System using System Data using System
使用 pandas DataFrame 中的数据创建多个 Excel 工作表

我有一个工作表我已将其读入数据帧并应用了前向填充 ffill 方法然后我想创建一个包含两个工作表的 Excel 文档一个工作表将在应用 ffill 方法之前在数据框中包含数据下一个工作表将包含应用了 ffill 方法的数据框最终
浮点算术以及 x86 和 x64 上下文

我们在 VisualStudio 进程上下文 x86 上下文和 VisualStudio 上下文 x64 上下文之外运行一些代码我注意到以下代码在两种上下文中提供了不同的结果 x86 中的 100000000000 和 x64 中的
UnsupportedOperationException：可序列化不支持默认值 - Jetpack Compose Navigation

我正在使用 Jetpack Compose Navigation 将 Health 实例传递给另一个可组合项下面的代码显示了我的健康等级和我的目的地健康 kt data class Health val height Int val w
Python：报纸模块 - 有什么方法可以直接从 URL 获取文章？

我正在使用 python 的报纸模块找到here 在教程中它描述了如何将不同报纸的构建集中起来它同时生成它们参见上面链接中的多线程文章下载有什么方法可以直接从网址列表中提取文章吗也就是说有什么方法可以将多个 url 输入到以下
计算两个任意形状之间的最小距离

我有两个任意形状现在我想计算两个形状之间的最小距离这里我附上图片首先绘制部分完成这个形状是圆弧和直线的组合现在当我要计算这些形状之间的最小距离时我遇到了问题使用 GWT java html5 canvas 绘制此形状为了计
Symfony 1.4 改进主义 save() 方法

我的数据库中有 500 个条目在我的后端我有行动例如 public function executeMyAction sfWebRequest request Get some data from table templates Doc
python中的并行/多线程差分进化

我正在尝试对生化过程进行建模并将我的问题构建为优化问题并使用它来解决differential evolution来自 scipy 到目前为止一切顺利我对具有 15 19 个参数的简化模型的实现感到非常满意我扩展了模型现在有 32
在 Spark Dataframe 中将字符串转换为日期

我有一个数据框 df1 与 2StringType fields Field1 字符串类型值 X Field2 字符串类型值 20180101 我想做的就是创建另一个数据框 df2 from df1有 2 个字段 Field1 字符串类

在 Spark Dataframe 中将字符串转换为日期

在 Spark Dataframe 中将字符串转换为日期 的相关文章

随机推荐

热门标签

在 Spark Dataframe 中将字符串转换为日期的相关文章