从字符串文字推断 Spark 数据类型

2023-12-25

我正在尝试编写一个可以推断 Spark 的 Scala 函数数据类型 https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/types/DataType.html基于提供的输入字符串：

/**
 * Example:
 * ========
 * toSparkType("string")  =>    StringType
 * toSparkType("boolean") =>    BooleanType
 * toSparkType("date")    =>    DateType
 * etc.
 */
def toSparkType(inputType : String) : DataType = {
    var dt : DataType = null

    if(matchesStringRegex(inputType)) {
        dt = StringType
    } else if(matchesBooleanRegex(inputType)) {
        dt = BooleanType
    } else if(matchesDateRegex(inputType)) {
        dt = DateType
    } else if(...) {
        ...
    }

    dt
}

我的目标是支持可用的大部分（如果不是全部）DataTypes。当我开始实现这个功能时，我开始思考：“Spark/Scala 可能已经有一个 helper/util 方法可以为我做到这一点。“毕竟，我知道我可以做这样的事情：

var structType = new StructType()

structType.add("some_new_string_col", "string", true, Metadata.empty)
structType.add("some_new_boolean_col", "boolean", true, Metadata.empty)
structType.add("some_new_date_col", "date", true, Metadata.empty)

Scala 和/或 Spark 都会隐式转换我的"string"论证StringType等等。所以我问：我可以使用 Spark 或 Scala 做什么来帮助我实现转换器方法？

Spark/Scala 可能已经有一个 helper/util 方法可以为我做到这一点。

你说得对。 Spark 已经有自己的架构和数据类型推断代码，用于从底层数据源（csv、json 等）推断架构，因此您可以查看它来实现您自己的（实际实现被标记为 Spark 私有，并且是与 RDD 和内部类绑定在一起，因此不能直接从 Spark 外部的代码使用它，但应该可以让您了解如何使用它。）

鉴于 csv 是平面类型（并且 json 可以具有嵌套结构），csv 模式推断相对更直接，应该可以帮助您完成上面想要实现的任务。因此，我将解释 csv 推断的工作原理（json 推断只需要考虑可能的嵌套结构，但数据类型推断非常类似）。

有了序言，你想看的是CSV 推断架构 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/csv/CSVInferSchema.scala#L41目的。特别是，看看infer方法需要一个RDD[Array[String]]并推断数组每个元素的数据类型横跨整个 RDD。它的做法是——它将每个字段标记为NullType首先，然后迭代下一行值（Array[String]）在里面RDD它更新了已经推断出的DataType到一个新的DataType如果新的DataType更具体。这正在发生here https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/csv/CSVInferSchema.scala#L46:

val rootTypes: Array[DataType] =
      tokenRdd.aggregate(startType)(inferRowType(options), mergeRowTypes)

Now inferRowType calls https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/csv/CSVInferSchema.scala#L64 inferField对于行中的每个字段。inferField 执行 https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/csv/CSVInferSchema.scala#L80是您可能正在寻找的 - 它采用到目前为止为特定字段推断的类型以及当前行的字段的字符串值作为参数。然后，它返回现有的推断类型，或者推断的新类型是否比新类型更具体。

从字符串文字推断 Spark 数据类型的相关文章

将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
Scala 匿名函数中的 return 语句

为什么显式 return 语句使用return关键字在匿名函数中从封闭的命名函数返回而不仅仅是从匿名函数本身返回例如以下程序会导致类型错误 def foo String x Integer gt return x foo 我知道建
为什么 Python 中不允许使用单一类型约束？

假设您想约束一个类型变量来实现某个接口你可能会这样写 from typing import TypeVar Callable T TypeVar T Callable class Foo Generic T gt gt TypeError
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
WSClient - 打开的文件太多

我正在 CentOS 6 上使用 Play Framework 2 4 我的应用程序抛出此异常 java net SocketException Too many open files 我在 Stack Overflow 上搜索了很多主题并
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
Haskell：确定函数数量的函数？

可以写一个函数吗arity a gt Integer确定任意函数的数量使得 gt arity map 2 gt arity foldr 3 gt arity id 1 gt arity hello 0 是的这可以非常非常容易地完成 ar
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
使用反射的属性类型或类

我想知道是否可以确定对象属性的类或原始类型获取所有属性名称和值非常容易所以答案 https stackoverflow com questions 2299841 objective c introspection reflection
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
在 Scala 中创建任意类作为 monad 实例

为了使任何东西都可以在 monad 上下文中操作如果使用 Haskell 我只需在任何地方为给定类型添加类 Monad 的实现所以我根本不接触数据类型定义的来源像人造的东西 data Z a MyZLeft a MyZRight a
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也

随机推荐

Facebook 如何衡量应用程序安装量 - Android/IOS

Facebook广告有一个功能可以通过Facebook上的广告知道安装了多少个应用程序https developers facebook com docs ads for apps mobile app ads advanced http
Javascript 按位运算符“<<”、>>>>”到 Python [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案下面是一些javascript代码 a gt gt gt c 8 256 a a lt lt 6 f Python 中这些行有等效的快捷方
.NET 4.5 HttpClient 通过 SSL PUT 或 POST 总是失败

我在解决这个问题时遇到了困难我也很难将其从一个应用程序一致地复制到另一个应用程序在某些我似乎无法识别的情况下 PUT and POST调用使用HttpClient导致以下异常发送请求时发生错误内部异常底层连接已关闭发送时发生意外
关注点、装饰者、演示者、服务对象、帮助者 - 帮助我理解它们 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Rails 中有几件事 Concerns Decorators Presenters Service Objects Helpers
如何从 Scala 求解大型稀疏线性系统

已经有几个问题 https stackoverflow com questions 8760925 is there a good math stats library for scala询问 Scala 的通用数学统计框架我只对一个具
检查复选框并触发更改事件javascript

我想触发更改事件并选中复选框JavaScript 不是 jQuery 由于这个原因我在使用 jQuery 时遇到了问题奇怪的行为 https stackoverflow com questions 5907645 jquery chrom
使用 Java 程序将文件上传到 Google Drive 的共享链接

我希望将文件从我的 java 应用程序上传到最终用户提供的共享谷歌驱动器链接最终用户已授予对共享的 Google 云端硬盘文件夹的可以编辑权限我在 Google 云端硬盘中没有看到任何 API 可以帮助我将文件上传到用户的共享 Go
iOS 11 中的 Photopicker 和 FB GrapSharer 问题

我的代码在 iOS 10 上运行良好但更新到 iOS 11 后似乎不起作用这是我在 Facebook 上分享视频的代码 internal func imagePickerController picker UIImagePickerCo
设置串行RS232端口设置； C# 中有 SerialPort 类的替代品吗？

在我的 NET 应用程序中我需要实现与此 C 托管代码等效的串行端口设置 SetCommMask m hCOMM EV RXCHAR SetupComm m hCOMM 9 2 128 10 400 PurgeComm m hCOMM P
将 Markdown 转换为其他格式时，与 pandoc 的跨文档链接损坏

Wenn 将带有跨文档链接的 Markdown 文件转换为 html docs 或 pdf 但在此过程中链接会损坏我使用 pandoc 1 19 1 和 MikTex 这是我的测试用例 File1 doc1 md link1 doc2 m
Django 管理表单：设置只读字段的默认值

目标展示特定请求只读user id创建和更新资源时在 django 管理表单上该显示应该是只读字段 readonly 未禁用这user id显示的内容源自请求用户 request user 因此初始值是由此设置的下列的这个帖子 h
当前鼠标位置在传单地图上的坐标，有光泽

我想以闪亮的方式访问传单地图中的当前鼠标位置使用闪亮时您可以使用以下命令获取单击事件的当前坐标input MAPID click 其中包含点击的纬度和经度同样我想要有input MAPID mouseover包含鼠标光标当前纬度和经度
对于其中包含特殊字符的字符串，C# 字符串比较失败[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
cocos2d 从未来特定时间开始粒子

我正在开发一个基于 cocos2d 的具有太空背景的应用程序其中我利用 CCQuadParticleSystem 来制作闪烁的星星我用 ParticleDesigner 生成了这个粒子系统一旦我加载粒子系统代表星星的白点就开始出现在
无法在 Firefox 中静音 HTML5 视频标签

我想用 webrtc 进行视频通话我有两个流一个是本地流第二个是远程流在 Chrome 中我将视频标签静音以免听到我的声音从而导致回声我的 HTML 标签就像
使用 matlab 根据条件过滤数据

I have ref价值为 ref 9 8 13 10 51 12 2 10 45 11 4 and In值作为 In 10 7 11 11 5 11 9 12 我想做以下两件事确定哪些In最接近匹配的值ref值然后之后来检查是否匹配I
使用整数除法时，将“a/(b*c)”替换为“a/b/c”是否安全？

更换是否安全a b c with a b c对正整数使用整数除法时a b c 或者我有丢失信息的风险吗我做了一些随机测试但找不到例子a b c a b c 所以我很确定它是安全的但不太确定如何证明它谢谢数学作为数学表达式 a b
使用 ls 列出目录及其总大小[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否可以使用ls在 Unix 中列出子目录的总大小及其所有内容而不是通常的4K那我假设只是目录文件本身 total 12K drwx
Matplotlib 对 seaborn 的 countplot 的替代方案是什么？

我有以下数据 male 843 female 466 Name Sex dtype int64 我用同样的方法绘制了条形图countplot from seaborn 并且成功了但我想知道它的替代方案是什么matplotlib I did
从字符串文字推断 Spark 数据类型

我正在尝试编写一个可以推断 Spark 的 Scala 函数数据类型 https spark apache org docs 1 4 0 api java org apache spark sql types DataType html基于

从字符串文字推断 Spark 数据类型

从字符串文字推断 Spark 数据类型 的相关文章

随机推荐

热门标签

从字符串文字推断 Spark 数据类型的相关文章