如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？

2024-03-07

我正在尝试将 Spark 中的示例中的简单 DataFrame 转换为 DataSet：https://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/latest/sql-programming-guide.html

case class Person(name: String, age: Int)    
import spark.implicits._

val path = "examples/src/main/resources/people.json"

val peopleDS = spark.read.json(path).as[Person]
peopleDS.show()

但出现了以下问题：

Exception in thread "main" org.apache.spark.sql.AnalysisException: Cannot up cast `age` from bigint to int as it may truncate
The type path of the target object is:
- field (class: "scala.Int", name: "age")
- root class: ....

谁能帮我吗？

编辑我注意到使用 Long 而不是 Int 有效！这是为什么？

Also:

val primitiveDS = Seq(1,2,3).toDS()
val augmentedDS = primitiveDS.map(i => ("var_" + i.toString, (i + 1).toLong))
augmentedDS.show()

augmentedDS.as[Person].show()

Prints:

+-----+---+
|   _1| _2|
+-----+---+
|var_1|  2|
|var_2|  3|
|var_3|  4|
+-----+---+

Exception in thread "main"
org.apache.spark.sql.AnalysisException: cannot resolve '`name`' given input columns: [_1, _2];

任何人都可以帮我理解这里吗？

如果将 Int 更改为 Long （或 BigInt），它可以正常工作：

case class Person(name: String, age: Long)
import spark.implicits._

val path = "examples/src/main/resources/people.json"

val peopleDS = spark.read.json(path).as[Person]
peopleDS.show()

Output:

+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+

EDIT: Spark.read.json默认情况下将数字解析为Long类型 - 这样做更安全。您可以在使用强制转换或 udfs 后更改 col 类型。

EDIT2:

要回答第二个问题，您需要在转换为 Person 之前正确命名列：

val primitiveDS = Seq(1,2,3).toDS()
val augmentedDS = primitiveDS.map(i => ("var_" + i.toString, (i + 1).toLong)).
 withColumnRenamed ("_1", "name" ).
 withColumnRenamed ("_2", "age" )
augmentedDS.as[Person].show()

Outputs:

+-----+---+
| name|age|
+-----+---+
|var_1|  2|
|var_2|  3|
|var_3|  4|
+-----+---+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？的相关文章

idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
实施策略模式的函数式方法

我正在尝试解决一个处理从一种温度单位到另一种温度单位摄氏度开尔文华氏度转换的问题在Java中我需要创建一个接口并提供多个实现来封装输入类型并将结果作为输出类型的单元返回例如开尔文到摄氏度或摄氏度到华氏度等我已经在 scala
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
PlayFramework：如何转换 JSON 数组的每个元素

鉴于以下 JSON values one two three 我如何在 Scala Play 中像这样转换它 values elem one elem two elem three 这很容易Play 的 JSON 转换器 https www
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
JavaFx ComboBox 绑定混乱

我有一个 I18N 实现它通过属性绑定 JavaFX UI 元素例如 def translateLabel l Label key String args Any Unit l textProperty bind createStrin
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
如何从命令行运行scala文件？

scala是否支持scala run xxx scala go语言支持这样运行 go my go 并且Python支持 python my py 但看来 scala xxx scala 仅进行语法检查未观察到任何输出或运行行为那么有没有
压缩 HList 的函数的推断类型

谢谢https github com milessabin shapeless wiki Feature overview shapeless 2 0 0 https github com milessabin shapeless wiki
案例类和案例对象之间的区别？

我正在学习 Scala 和 Akka 并且在最近的查找中solution https stackoverflow com questions 22770927 waiting for multiple results in akka 我发现
从继承的受保护 Java 字段创建公共访问器

我怎样才能完成以下工作 class Foo extends javax swing undo UndoManager increase visibility works for method override def editToBeUnd
如何使用 scala 宏打印变量名称和值？

我确信有一种更优雅的方式来编写以下宏来打印变量的名称和值 def mprintx c Context linecode c Expr Any c Expr Unit import c universe val namez c enclosi
用于真实 Web 项目的 Scala-JS [已关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案有人用过吗Scala JS在真实的网络项目中但不仅仅适用于普通的JavaScript在隔离环境中替换我想尽可能多地使用 Scala 我希望可
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
Scala：尝试 .getOrElse 与 if/else

我是一名相当新的 Scala 开发人员我是一名经验丰富的 Java 开发人员到目前为止我一直很喜欢 Scala 的简单性我真的很喜欢函数式结构而且它们常常迫使你编写更简洁的代码然而最近我注意到由于舒适性和简单性我最终使用了在

随机推荐

GablingSystem-akka.actor.default-dispatcher-2 错误 - 运行空手道加特林测试时因“j.l.NullPointerException”而崩溃

当我尝试使用空手道运行加特林性能测试时我在错误日志中收到以下内容 Simulation perf SVTKarateSimulation started 17 55 28 277 GatlingSystem akka actor defa
线程“main”中的异常 org.openqa.selenium.remote.UnreachableBrowserException：使用 appium 时无法启动新会话

为我的机器上运行的 Appium 服务器运行代码时总是出现错误谁能帮我解决这个问题我关注了一些线程但没有一个线程无法解决我的问题如果我手动运行 appium exe 并且运行代码工作正常但是当我开始从代码运行appium并且交互时
ASP .NET C# - 将圆形 SqlDataSource 放入方形 DataTable 孔中？

使用GiosPDF 库 http www codeproject com KB graphics giospdfnetlibrary aspx在 ASP NET 3 5 Web 应用程序中库示例使用数据表来填充 PDF 表我的所有数据都
PHP 可选参数 - 按名称指定参数值？

我知道可以使用可选参数如下所示 function doSomething do something something doSomething do doSomething do nothing 但假设你有以下情况 function do
如何使用 Hash 标签 Href 刷新制作页面

我有一个 href 为 news 1930 当我点击此链接时 news页面它不会刷新页面它只是将 1930 添加到 URL 末尾我希望它刷新页面我使用标签后面的信息和一些 jquery 在相应的 iframe 中加载该特定文章当
使用C#执行命令行

我想做的就是发送一条用 program exe 打开模型的命令应该超级简单 Ex C Program Files x86 River Logic Enterprise Optimizer 7 4 Developer EO74 exe C
新手 Django 模型错误

使用 Python 2 7 x Django 1 9 我创建了一个新的超级简单的 Django 骨架项目django admin startproject simple 作为健全性检查我创建了一个views py文件具有一个简单的视图该
我应该如何存储和计算二进制代码之间的汉明距离？

如何有效地存储二进制代码对于某些固定大小例如 32 位可以使用原始类型但是如果我的二进制代码更长怎么办计算两个二进制代码之间的汉明距离的最快方法是什么 Use std bitset
如何在运行时将方法附加到动态创建的 C# 类型？

我一直在使用一个内部数据访问库该库将 XML 有效地传递给一个存储过程该存储过程返回 XML 我对此无能为力我尝试让 ActiveRecord 获得批准但我的请求被拒绝但是使用以下位置提供的优秀代码http blog bodur
我们可以在 CloudWatch 中为 Sagemaker 笔记本实例生成自定义日志吗？

CloudWatch 默认记录 Sagemaker 实例的日志例如内核启动内核关闭笔记本保存等不过我想列出一些自定义日志以及这些默认日志请看一下所附图片 Sagemaker 笔记本实例的默认日志在 CloudWatch 中的外观
WPF 文本框绑定到小数点尊重文化

我已将 TextBox 绑定到 Decimal 我的问题是绑定使用美国数字标准使用点进行小数分隔 1 5 我的系统是德语系统并配置为使用逗号作为小数分隔 1 5 我需要 TextBox 绑定来显示并使用逗号而不是点来分隔小数如何获得
Django 迁移错误：您无法更改 M2M 字段或从 M2M 字段更改，也无法在 M2M 字段上添加或删除 through=

我正在尝试将 M2M 字段修改为外键字段命令 validate 显示没有问题当我运行syncdb 时 ValueError Cannot alter field xxx into yyy they are not compatible
https://service.oneaccount.com/onlineV2_B/OSV2?event=login&pt=3 上的 QtNetwork SSL 握手错误

当我使用 QT 应用程序下载此页面时使用 QNetworkAccessManager gt get url 我在回复对象中收到网络错误 QNetworkReply NetworkError 错误字符串是 SSL 握手失败但是 sslEr
使用 PHP 生成 SNMP 陷阱

我正在拼命寻找一种从 PHP 生成 SNMP 陷阱的方法我知道使用 snmpget 的内置方法但我无法弄清楚如何发送 SNMP 陷阱有人知道它的类代码片段吗除了使用 exec 调用 cli 工具之外在网络上搜索没有找到任何其他内
条件切换的问题

下面的示例摘自http php net manual de control structs switch php http php net manual de control structures switch php
C 警告冲突类型

我的代码是 void doc mycode return 我的警告是 conflicting types for doc 任何人都可以解决它在 C 中如果调用函数时没有原型则假定返回一个int并采用未指定数量的参数然后当您稍后将函
使用 Azure 中的 ASP.NET Core 将用户会话保存在 Redis 中

我正在使用 redis 缓存来保存项目中的一些内容我正在使用 Azure WebApp 当我在预生产环境与生产环境之间进行交换时用户会话丢失他需要在我的网页中重新登录我正在使用 Identity 3 0 和 UseCookieAut
React-router v4 一次显示多个路由

我遇到一个问题我使用react router dom 的路由同时显示所有路由因此当我渲染我的应用程序组件和包含路由的开头时我会看到每个路由的页面彼此重叠所以它看起来像这样现在开始这一切是如何开始的这是我的 index jsx
MySQL 17.6m rows (1.2 GB)全表更新太慢

我有一张有 17 6m 行的表 CREATE TABLE tmp hist ti int 11 DEFAULT NULL cip6 varchar 15 DEFAULT NULL date varchar 20 DEFAULT NULL f
如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？

我正在尝试将 Spark 中的示例中的简单 DataFrame 转换为 DataSet https spark apache org docs latest sql programming guide html https spark ap

如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？

如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？ 的相关文章

随机推荐

热门标签

如何使用案例类将简单的 DataFrame 转换为 Spark Scala DataSet？的相关文章