将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间

2024-04-02

我正在读取 csv 文件，其中一列中有一个应转换为日期时间的字符串。该字符串的形式为MM/dd/yyyy HH:mm。但是，当我尝试使用 joda-time 对其进行转换时，我总是收到错误：

线程“main”中的异常 java.lang.UnsupportedOperationException：不支持 org.joda.time.DateTime 类型的架构

我不知道具体是什么问题...

 val input = c.textFile("C:\\Users\\AAPL.csv").map(_.split(",")).map{p => 
      val formatter: DateTimeFormatter = DateTimeFormat.forPattern("MM/dd/yyyy HH:mm");
      val date: DateTime = formatter.parseDateTime(p(0));
      StockData(date, p(1).toDouble, p(2).toDouble, p(3).toDouble, p(4).toDouble, p(5).toInt, p(6).toInt)
}.toDF()

有谁可以帮忙吗？

我不知道具体是什么问题...

嗯，问题的根源几乎可以通过错误消息来描述。 Spark SQL 不支持 Joda-TimeDateTime作为输入。日期字段的有效输入是java.sql.Date (see Spark SQL 和 DataFrame 指南，数据类型供参考 http://spark.apache.org/docs/latest/sql-programming-guide.html#data-types).

最简单的解决办法就是调整StockData类所以需要java.sql.Data作为参数并替换：

val date: DateTime = formatter.parseDateTime(p(0))

像这样的东西：

val date: java.sql.Date = new java.sql.Date(
  formatter.parseDateTime(p(0)).getMillis)

val date: java.sql.Timestamp = new java.sql.Timestamp(
  formatter.parseDateTime(p(0)).getMillis)

如果你想保留小时/分钟。

如果您考虑使用带有 range 子句的窗口函数，更好的选择是将字符串传递给 DataFrame 并将其转换为整数时间戳：

import org.apache.spark.sql.functions.unix_timestamp

df.withColumn("ts", unix_timestamp($"date", "MM/dd/yyyy HH:mm"))

See Spark 窗口函数 - rangeBetween 日期 https://stackoverflow.com/q/33207164/1560062了解详情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

datetime

apachespark

jodatime

将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间的相关文章

如何调用 Scala 抽象类型的构造函数？

我试图弄清楚如何调用 Scala 抽象类型的构造函数 class Journey val length Int class PlaneJourney length Int extends Journey length class BoatJ
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
ProGuard 无法与 Windows 中使用的 Joda Time 一起编译

实际上这是一个答案而不是一个问题我确实在 Windows 上花了很多时间使用 JodaTime 并使用 ProGuard 将其包含在我的 Android 项目中混淆器配置 libraryjars C Users Reto Docu
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Slick：将操作与 DBIOAction 的 Seq 组合起来

我有工作以下代码 val actions for lt slickUsers insertOrUpdate dbUser loginInfo lt loginInfoAction lt slickUserLoginInfos DBUse
如何使用非标准的一周第一天在 Oracle 中计算一年中的第几周？

我有一个查询需要返回日期字段的一年中的第几周但查询的客户使用非标准的一周第一天所以TO CHAR with IW 没有返回预期的结果在这种情况下一周的第一天是周六周五是一周的第七天对于 T SQL 我会使用DATEPART a
如何在jquery中获取保存时间和当前时间的差异？

我想在 javascript 或 jquery 中获取保存时间和当前时间之间的时差我节省的时间看起来像Sun Oct 24 15 55 56 GMT 05 30 2010 java中的日期格式代码如下 String newDate 201
使用 C# 从 DateTime 获取日期

愚蠢的问题给定日期时间中的日期我知道它是星期二例如我如何知道它的 tue 2 和 mon 1 等 Thanks 您正在寻找星期几 http msdn microsoft com en us library system datetim
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
如何在 Perl 中获取本周的日期？

我有以下循环来计算本周的日期并将其打印出来它有效但我正在考虑 Perl 中日期时间可能性的数量并且想听听您对是否有更好的方法的意见这是我写的代码 usr bin env perl use warnings use strict u

随机推荐

添加到类内的列表

我有这门课 public class User private string name public string UserName get set public List
我可以在没有 Visual Studio 的情况下使用 Visual C++ 编译器吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有什么方法可以从命令行使用 Visual C 或 Visual C 编译器而无需安装 Visual Studio 我以前也试过没找到寻
MongoDB 和 C# Find()

我有下面的代码我是 mongodb 的新手我需要帮助来查找集合中的特定元素 using MongoDB Bson using MongoDB Driver namespace mongo console public class Use
是否可以通过 Elasticsearch 中的映射来更新索引中的现有字段？

我已经创建了一个索引它包含我的数据MySQL数据库我有几个字段string在我的表中我需要它们作为不同的类型 integer double in Elasticsearch 所以我知道我可以通过mapping如下 mappings m
UITableViewController 和 UITextField 键盘

我有一个带有分组静态 UITableView 的 UITableViewController 我正在故事板上定义静态表视图的单元格其中一个单元格中有一个文本字段当调用此文本字段时键盘会弹出但是表视图不会像表视图控制器上通常那样自动
泛型类型不相等

下面的代码段打印出类型不相同为什么我知道使用interfaceOnMyType GetGenericTypeDefinition 可以解决问题但为什么我必须这样做呢 class Program static void Main st
:active 时的样式按钮与 :hover 不同

我想制作一个按钮在悬停时显示背景颜色在按钮按下时显示没有背景颜色的按钮颜色这是我当前的代码 windowButton hover background color 1a82b8 windowButton active windowCl
如何在 Cypress 中点击 x 次

我的网站上有一个对象列表所有对象旁边都有添加按钮单击第一个添加按钮时将添加该对象并且该行消失并被下一个对象取代对象名称相同在保存之前我想 click 三次以添加列表中的前三个对象我怎样才能做到这一点我知道 clic
带有页眉和页脚的 uiwebview

我正在尝试添加页眉和页脚它们都是UIViews 但由于某种原因我的页脚粘在底部我正在使用KVO查看我的内容大小的方法我在这里介绍我认为问题所在的方法 void updateLayout Update the frame of the
如何在aws lambda中添加mecab库

我正在尝试将 mecab 库添加到 aws lambda 层但它不起作用我想要的是标记日语和韩语标记化就足够了这就是我所做的我参考了这个网站 https towardsdatascience com how to install
使用字符串输入引用模型

假设我希望创建一个可以使用 type string 和 id int 查询所需对象的页面 query type people id 1 会来接我人物查找 1 whereas 查询类型城市 id 123 会来接我城市查找 123 但是
MPI 是否提供预处理器宏？

MPI 标准是否提供了预处理器宏因此如果我的 C C 代码由支持 MPI 的编译器编译它可以分支吗就像是 OPENMPOpenMP 的宏根据MPI标准 http www mpi forum org docs mpi 3 0 mpi3
如何让 Mathematica 内核暂停以创建外部文件

是否可以在计算期间暂停 Mathematica 内核这是一个例子 Module Mathematica code Calls an external program with some argument Needs to wait for
C++ 从函数指针数组调用函数

我使用存储在数组中的函数指针并使用 typedef 定义指针但我对如何调用该函数有点迷失这是 Menu h 部分 typedef void Menu FunctionPointer FunctionPointer m funcPoin
如何在本机 Android 应用程序开发中使用 OpenStreetMap [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您好我的 Android 手机中有默认的 Android 虚拟内容本机应用程序构建现在我需要使用
Spark 中广播对象的最大大小是多少？

使用数据框时播送 http spark apache org docs 2 0 0 api java org apache spark sql functions html broadcast org apache spark sql Da
如何在vim的ex模式下从缓冲区粘贴？

我在从文件复制某些文本然后将其复制到新的拆分窗口时遇到问题 3yy 新 p 在命令模式下它的工作当我按下时复制后分割窗口中的 p 它的工作我理解您想要拉出当前缓冲区中的当前行和下面的两行在新的水平分割中打开一个空缓冲区并将这三行
使用“boot”包进行引导的 GPU 计算

我想使用引导程序进行大型分析我发现使用并行计算提高了引导速度如以下代码所示并行计算 detect number of cpu library parallel detectCores library boot boot functio
JavaFX 任务线程未终止

我正在编写一个 JavaFX 应用程序我的对象扩展了 Task 以提供远离 JavaFX GUI 线程的并发性我的主要课程如下所示 public class MainApp extends Application Override pu
将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间

我正在读取 csv 文件其中一列中有一个应转换为日期时间的字符串该字符串的形式为MM dd yyyy HH mm 但是当我尝试使用 joda time 对其进行转换时我总是收到错误线程 main 中的异常 java lang Un

将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间

将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间 的相关文章

随机推荐

热门标签

将“MM/dd/yyyy HH:mm”形式的字符串转换为 Spark 数据帧中的 joda 日期时间的相关文章