Spark from_json 也不例外

2024-02-25

我正在使用 Spark 2.1 (scala 2.11)。

我想将具有定义模式的 json 格式字符串从一个数据帧加载到另一个数据帧中。我尝试了一些解决方案，但最便宜的是标准列函数 from_json 。我尝试了一个例子（https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-functions-collection.html#from_json https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-functions-collection.html#from_json）这个函数给了我意想不到的结果。

val df = spark.read.text("testFile.txt")

df.show(false)

+----------------+
|value           |
+----------------+
|{"a": 1, "b": 2}|
|{bad-record     |
+----------------+


df.select(from_json(col("value"),
      StructType(List(
                  StructField("a",IntegerType),
                  StructField("b",IntegerType)
                ))
    )).show(false)


+-------------------+
|jsontostruct(value)|
+-------------------+
|[1,2]              |
|null               |
+-------------------+

此行为类似于 mode:PERMISSIVE，它不是默认的。默认情况下，它设置为 FAILFAST 模式，这意味着只要输入数据和强制模式不匹配，它就应该抛出异常。

我尝试使用 DataFrameReader（JSON DataSource 和 FAILFAST 模式）加载 testFile.txt 并成功捕获异常。

spark.read.option("mode","FAILFAST").json("test.txt").show(false)

---
Caused by: org.apache.spark.sql.catalyst.json.SparkSQLJsonProcessingException: Malformed line in FAILFAST mode: {bad-record
---

虽然两种情况下的解析模式相同，但为什么各自的输出如此不同？

这是预期的行为。from_json是一个SQL函数，并且在这个级别没有异常（故意的）的概念。如果操作失败，结果是未定义的NULL.

While from_json提供options参数，它允许您设置 JSON 读取器选项，由于上述原因，无法覆盖此行为。

附注默认模式DataFrameReader是宽容的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

scala

apachespark

Spark from_json 也不例外的相关文章

手动排除sbt中的一些测试类

我通常在 CI 中执行以下命令清理更新编译测试发布但是我想从 sbt 命令行中排除 1 个或几个测试类我怎样才能做到这一点我不想更改我的代码以使用忽略等两种可能的选择 test only See http www scala
PagedList 的 Newtonsoft.Json 序列化不包含某些属性

我正在尝试序列化 PagedList 对象 https github com martijnboland MvcPaging blob master src MvcPaging PagedList cs https github com m
如何识别嵌套 json 文件并将其分解为数据框的列？

我再次重新组织我的问题以便更清楚我的数据看起来像这样 Research xmlns http www xml org 2013 2 XML language eng createDateTime 2022 03 25T10 12 39Z
Jq：如何将子成员移至父成员？

考虑以下 json a b c 1 d 2 如何将 b 的所有属性移至父级 a 下 a c 1 d 2 b 对于这种特殊情况您可以这样做 jq a b b input json 这里我们正在更新对象a与原始内容b替换为空对象并将其与原始内
如何通过 JSON / JS 在 Jenkins 中添加 CSRF 面包屑

我想在 Jenkins 中通过 API 创建作业但无法连接 Jenkins 中的 CSRF 保护课程我得到了一个面包屑但不知道如何将其附加到 JSON 或 JavaScript 中的 url 请求以通过 POST 方法获取数据传递
Play框架：读取包含空值的Json

我正在尝试在 Play Scala 程序中读取 Json 数据 Json 的某些字段可能包含空值因此我定义 Reads 对象的方式如下 implicit val readObj Reads ApplyRequest JsPath a re
如何在 php 中访问名为变量的对象属性？

以 JSON 编码的 Google API 返回一个如下所示的对象 updated gt stdClass Object t gt 2010 08 18T19 17 42 026Z 任何人都知道我如何访问 t value object gt
Google AJAX API - 如何获得 4 个以上结果？

我使用下面的 google API ajax 来获取特定搜索词的图像这是在一个WinForms app 下面的链接似乎有效但它只返回 4 个结果通过 JSON 有谁知道如何哄得更多吗显然必须有另一个参数来请求更多或分页结果但我似乎
在Java Servlet中获取通过jquery ajax发送的参数[重复]

这个问题在这里已经有答案了我在网上搜索这个主题但找不到有效的示例我会很高兴有人能给我帮助这就是我测试的 ajax url GetJson type POST dataType json contentType application
获取两个顶点之间的边属性值时出现 ClassCastException

我正在尝试获取两个顶点之间的边缘属性值并低于异常 java lang ClassCastException 无法将 java lang String 转换为 scala runtime Nothing 环境内存中的泰坦 Code val
akka http配置中的idle-timeout和request timeout有什么区别？

我查阅了文档并发现了这些空闲连接自动关闭的时间设置infinite完全禁用空闲连接超时空闲超时 10 秒 Defines the default time period within which the application has
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
Scala 中的 Apply 和 lambda

我有下面的代码 scala gt val builder new StringBuilder foo bar baz builder StringBuilder foo bar baz scala gt 0 until 5 foreach
如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
Mongoose查询结果是只读的吗？

如何修改 Mongoose 查询返回的对象假设我们有以下模式 var S new mongoose Schema name String field String 我对结果进行了以下查询和修改 var retrieve function
“JSONArray 文本必须在 null 的第 1 个字符处以 '[' 开头”

只是想知道这个错误可能意味着什么我从下面的代码中得到它 try JSONArray jArray new JSONArray result for int i 0 i
Scala REPL / SBT Console 是否有配置文件？

我一直在尝试找到某种点文件来放入 Scala REPL 设置和自定义函数我特别有兴趣传递它的标志例如 Dscala color 启用语法突出显示以及覆盖设置如结果字符串截断 scala gt power scala gt vals
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d

随机推荐

静态方法和多态性

我有一个简单的问题但我无法找到一个好的答案为什么下面的Java程序显示20 如果可能的话我希望得到详细的答复 class Something public int x public Something x aMethod public
如何在 C 中使用递归打印星金字塔图案而不使用任何循环？

我这样做但它使用的是for环形我不想要它 include
打砖块游戏中球和砖块之间的碰撞检测[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案在打砖块游戏中如何检测球和砖块之间的碰撞边界框碰撞 http www gamedev net reference articles
d3 比例：如何使用 .copy()？

我遇到了log copy https github com mbostock d3 wiki Quantitative Scales log copy in the API参考 https github com mbostock d3 wi
Firestore（Web 版本 9 模块化）：getDocsFromCache 似乎不起作用

我是 Firebase 新手我发现从缓存中获取文档 https firebase google com docs reference js firestore authuser 0 getdocsfromcache 我听说 firebas
使用 PHP 获取客户端 IP 地址 [重复]

这个问题在这里已经有答案了我想获取使用我网站的客户端 IP 地址我正在使用 PHP SERVER超全局 SERVER REMOTE ADDR 但我发现使用此方法无法给出正确的 IP 地址我获取我的 IP 地址发现它与我的 IP 地址
setContentView 需要很长时间（10-15 秒）执行

我有一个包含 100 个或更多按钮的大型活动但加载后就可以正常工作了然而问题是加载从单击其启动图标到获得第一个视图需要 10 12 秒直到第一次查看时它显示黑色背景的灰色标题栏至少我想在加载时显示一个简单的进度条或对话框但在
箭头不适用于输入类型=“数字”

我用了一个简单的html
在 Zend Framework 2 中扩展 Zend\View\Helper\Url

我写了一个简单的 url 视图助手它扩展了Zend View Helper Url并将其附加到ViewHelperManager MyNamespace View Helper Url namespace MyNamespace View
如何在 django 2.0 中的 url 中有选项

在 Django 1 中我曾经有这样的 url 选择 url meeting P
Vue Ag-grid 一次隐藏/取消隐藏所有列

我试图在父组件的数据更改时隐藏和取消隐藏 ag grid 中的所有列这是我的子组件
MS SQL 相当于查询中的 MySQL 用户定义变量

在 MySQL 中如果您想报告一个公式然后在另一个公式中使用该结果您可以执行类似于以下操作 SELECT var1 column1 column2 AS var1 POWER var1 2 AS var2squared FROM da
在 XAML 中将布尔值返回 null 到复选框状态转换器

我有一个 TaskStatus 到布尔转换器它在 Windows 应用商店应用程序通用应用程序的 XAML 中实现 IValueConverter 接口我有三个任务状态并使用 IsThreeState true 在复选框中启用了不
如何在 lambda 本身中获取 C++ lambda 函数的地址？

我试图弄清楚如何获取 lambda 函数本身的地址这是示例代码 std cout lt lt Address of this lambda function is gt lt lt 我知道我可以捕获变量中的 lambda 并打印地址但我
如何在通知区域显示进度条？

你好我正在做一个 Android 应用程序在其中我将视频上传到 PHP 服务器我在用HTTPURLConnection进行上传我陷入了在通知区域显示进度条并更新它的困境我搜索了近一周的时间来做到这一点但找不到提示如果有人知道
修复 WCF 4.0 REST 的 XmlDictionaryReaderQuotas 最大长度配额 [已关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如果 POST 正文长度超过 819
Safari 在重定向/表单提交时暂停所有动画

我有一个点击链接时触发的动画这是一个放大 div 然后淡出的 jQuery 动画为了确保速度在单击链接的同时会触发重定向这是必须发生的我不能将重定向放在 jQuery 的 animate 的成功函数中此重定向是通过表单提交完成
Django manage.py runserver 抛出 ImportError: AdminMediaHandler

问题当我跑步时python manage py runserver我收到错误ImportError cannot import name AdminMediaHandler ex venv agconti agconti Inspiron
在远程节点上的 ssh 命令中使用 SED

我编写了一个脚本来 ssh 到某些节点并运行sed节点内的命令脚本看起来像 NODES compute 0 3 for i in NODES do echo i ssh i sed i s 172 16 48 70 172 20 54 1
Spark from_json 也不例外

我正在使用 Spark 2 1 scala 2 11 我想将具有定义模式的 json 格式字符串从一个数据帧加载到另一个数据帧中我尝试了一些解决方案但最便宜的是标准列函数 from json 我尝试了一个例子 https jacekla

Spark from_json 也不例外

Spark from_json 也不例外 的相关文章

随机推荐

热门标签

Spark from_json 也不例外的相关文章