将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

2024-04-14

我正在尝试使用 Spark 2.0.2 将 JSON 文件转换为镶木地板。

JSON 文件来自外部源，因此架构在到达之前无法更改。
该文件包含属性映射。在我收到文件之前，属性名称是未知的。
属性名称包含不能在 parquet 中使用的字符。

{
    "id" : 1,
    "name" : "test",
    "attributes" : {
        "name=attribute" : 10,
        "name=attribute with space" : 100,
        "name=something else" : 10
    }
}

空格和等于字符都不能在 parquet 中使用，我收到以下错误：


 org.apache.spark.sql.AnalysisException: Attribute name "name=attribute" contains invalid character(s) among " ,;{}()\n\t=". Please use alias to rename it.;

由于这些是嵌套字段，我无法使用别名重命名它们，这是真的吗？
我尝试按照此处的建议重命名架构中的字段：如何重命名 DataFrame 中与嵌套 JSON 对应的字段 https://stackoverflow.com/questions/34050658/how-to-rename-fields-in-an-dataframe-corresponding-to-nested-json/39993500#39993500。这适用于某些文件，但是，我现在得到以下 stackoverflow：



java.lang.StackOverflowError 

at scala.runtime.BoxesRunTime.boxToInteger(BoxesRunTime.java:65) 
at org.apache.spark.scheduler.DAGScheduler.getCacheLocs(DAGScheduler.scala:258) 
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal(DAGScheduler.scala:1563) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply$mcVI$sp(DAGScheduler.scala:1579) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply(DAGScheduler.scala:1578) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply(DAGScheduler.scala:1578) 
at scala.collection.immutable.List.foreach(List.scala:381) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1578) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1576) 
at scala.collection.immutable.List.foreach(List.scala:381) 
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal(DAGScheduler.scala:1576) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply$mcVI$sp(DAGScheduler.scala:1579) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply(DAGScheduler.scala:1578) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$1.apply(DAGScheduler.scala:1578) 
at scala.collection.immutable.List.foreach(List.scala:381) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1578) 
at org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1576) 
at scala.collection.immutable.List.foreach(List.scala:381) 
...
repeat
...

我想做以下操作之一：

当我将数据加载到 Spark 时，从字段名称中删除无效字符
更改架构中的列名而不导致堆栈溢出
以某种方式更改架构以加载原始数据，但在内部使用以下内容：

{
    "id" : 1,
    "name" : "test",
    "attributes" : [
        {"key":"name=attribute", "value" : 10},
        {"key":"name=attribute with space", "value"  : 100},
        {"key":"name=something else", "value" : 10}
    ]
}

我这样解决了这个问题：

df.toDF(df
    .schema
    .fieldNames
    .map(name => "[ ,;{}()\\n\\t=]+".r.replaceAllIn(name, "_")): _*)

我用“_”替换了所有不正确的符号。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

parquet

将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复] 的相关文章

如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB

随机推荐

Perl 脚本中的大小写敏感性 - 如何使其不敏感？

我如何更改以下马尔可夫脚本以将大写和小写单词视为相同整个想法是帮助提高马尔可夫文本生成器的输出质量就目前情况而言如果您在其中插入 99 个小写句子和 1 个大写句子您几乎总是会在输出中找到大写句子的非标记化版本 Copyright
解析期间强大的库存

当我开始使用我的应用程序上传文件时它会在第一步后存储上传功能代码如下 exports upload function req res var form formidable IncomingForm console log Upload
实体框架 4.0：错误 113：多重性在角色中无效

我在数据库中放入了一个新表并且有 4 个表与其有外键关系我以为我以相同的方式配置了所有 4 个但我收到此错误错误 15 错误 113 多重性在关系 FK OtherLeaves ReportCellImages 中的角色 Repor
如何在 JTSAGE 日期选择器中仅显示日期之前

I use Jtsage http dev jtsage com jQM DateBox2 我的移动应用程序 jquery mobile 和phonegap 中的日期选择器我只想显示今天和今天之前的日期 hide future dates
如何逐像素绘制任意方向的椭圆？

我必须逐像素绘制任意大小和方向的椭圆绘制一个长轴和短轴与 x 轴和 y 轴对齐的椭圆似乎很容易但将椭圆旋转任意角度似乎更棘手最初我认为绘制未旋转的椭圆并对每个点应用旋转矩阵可能会起作用但似乎这可能会导致舍入错误而且我需要相当高的
C 中函数指针的初始化

我有这个功能 uint8 t Authorization getRole char const userId UsertoRole T const roleTable 在主程序中我有 given Role Authorization get
如何在另一个类中访问一个类的成员函数？

我无法访问另一个类中一个类的成员函数尽管我可以在 main 中很好地访问它我一直在尝试扭转局面但无法理解我做错了什么任何帮助将不胜感激这是生成错误的行 cout lt lt n nRetrieve key from inside
Github 存储库 - LockFile 存在

我最近尝试通过 GitHub Desktop 提交到我的存储库并被告知有一个锁定文件阻止我这样做我不记得上传过这个锁定文件也不知道它来自哪里可能有其他人同时推动吗否则只需尝试存储更改移动到另一个分支返回应用存储并再次推送
Unity / RIDER：乘法运算的顺序效率低下？

骑手 IDE 告诉我以下操作效率低下 transform Translate moveDirection speed Time smoothDeltaTime 并想将其重写为 transform Translate Time smoothD
在javascript中获取元素的xpath

我正在使用 javascript 进行开发我需要获取单击的元素的 xpath 我知道为了获得 id 我们可以这样做 element onclick function event var target id event target id
为什么 schema_translate_map 不更改架构？

我正在尝试使用schema translate map更改架构 Base declarative base class DataAccessLayer def init self conn string mysql mysqlconnect
实体框架 7 SaveChanges

有没有办法注册一个回调该回调将在 EF7 中的模型保存到数据库之前调用我想要做的是设置所有模型上的 ModifiedBy 和 ModifiedDate 属性我不太热衷于在每次保存之前手动执行此操作因此我正在寻找一些更通用和自动的方法
为什么https只能用于登录？

性能是唯一的问题吗不能在整个用户会话期间使用 https 连接吗显然重定向发生的情况较少我发现这个相关问题http 与 https 性能对比 https stackoverflow com questions 149274 http
SHTML 的目的和独特性是什么？

最近当我看到一个带有 shtml 扩展名的网站时我开始了解 SHTML SHTML 的目的是什么它与 HTML 和 DHTML 有何不同 SHTML 是一种文件扩展名可让 Web 服务器知道应使用服务器端包含 SSI 来处理该文件
我可以使用 adb shell 向我的应用程序发送命令吗

我想找到一种方法来创建可以使用 adb shell 或类似命令发送到我的应用程序的命令这样我就可以对程序进行一些小的更改而不必每次更改任何内容时都重新加载应用程序有没有办法打开 adb shell 并向正在运行的应用程序发送命令如果
WCF回调接口-谁关闭通道

我在关闭回调双工通信通道时遇到问题疑问这是我的原型 WCF 接口 ServiceContract CallbackContract typeof IMyInterfaceCallback public interface IMyInt
如何使用 rhino 导入其他 javascript 文件

我一生都无法弄清楚如何在Rhino下的javascript中导入javascript文件基本上我想做的就是导入 some file js 并能够使用其中范围内的内容我一直在尝试弄乱 Context currentContext com
Egit - 创建分支时正确设置远程跟踪

当我使用 EGit 从远程分支创建新分支时我得到了错误的远程跟踪设置我从远程分支 refs heads master 创建本地分支 feature1 并立即推送到上游在我的 git config 文件中配置以下远程跟踪 branch
如何重置对模拟类方法的期望？

抱歉如果这很简单我对 ruby 和 rspec 都是新手似乎 rspec 是一个非常晦涩的世界特别是来自 net 背景时在我的规范中我有 before each do expect File to receive exi
将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

这个问题在这里已经有答案了我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源因此架构在到达之前无法更改该文件包含属性映射在我收到文件之前属性名称是未知的属性名称包含不能在 parq

将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复] 的相关文章

随机推荐

热门标签