如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？

2023-11-21

我遇到了数据块中记录损坏的问题。我们想要对损坏的记录进行计数，并将损坏的记录保存在特定位置作为增量表。为此，我们正在阅读使用PERMISSIVE并据此进行查询_corrupt_record column.

我们在 Azure Databricks 中将 pyspark 与 Apache Spark 3.0.1 结合使用。

这是我们收到的错误消息：

从 Spark 2.3 开始，原始查询当引用的列仅包含时，不允许使用 JSON/CSV 文件内部损坏记录列（默认名称为 _corrupt_record）。例如： Spark.read.schema(schema).json(file).filter($"_corrupt_record".isNotNull).count() 和 Spark.read.schema(schema).json(file).select("_corrupt_record").show().

根据这个文档，如果要查询列损坏记录，则必须缓存或保存数据。

但我们不想在 ETL 中缓存数据。 ETL 用于在同一集群上运行的许多作业，我们可以将 150GB 的大文件作为输入。缓存数据可能会导致集群崩溃。

有没有办法查询这些损坏的记录without缓存数据？

#1 将数据保存在 blob 存储上可能是另一种选择，但这听起来开销很大。

#2 我们还尝试使用该选项BadRecordsPath：将坏记录保存到BadRecordsPath并读回来以便统计，但是没有简单的方法可以知道坏记录文件是否已被写入（以及文件已写入哪个分区）。分区看起来像/20210425T102409/bad_records

请参阅我的其他问题here

#3 另一种方法是从许可读取中减去 dropmalformed 读取。例如：

dataframe_with_corrupt = spark.read.format('csv').option("mode", "PERMISSIVE").load(path)
dataframe_without_corrupt = spark.read.format('csv').option("mode", "DROPMALFORMED").load(path)

corrupt_df = dataframe_with_corrupt.exceptAll(dataframe_without_corrupt)

但我不确定它会比缓存占用更少的内存！

任何建议或意见将不胜感激！提前致谢

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？的相关文章

如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
使用redis进行树形数据结构

我需要为基于树的键值开发一个缓存系统与Windows注册表编辑器非常相似其中缓存键是字符串表示树中到值的路径可以是原始类型 int string bool double 等或子树本身例如 key root x y z w val
检查缓存后 System.Web.HttpContext.Current 自身为空

今天我遇到了一个奇怪的问题这对我来说毫无意义总结如下在方法内部我检查缓存的项目如下所示 private async Task
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何清除 APC 缓存而不使 Apache 崩溃？

如果 APC 存储大量条目清除它们会导致 httpd 崩溃如果 apc clear cache user 花费的时间超过 phps max execution time 调用 apc clear cache 的脚本将在之前被 php
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
通过 HTML 或 JavaScript 禁用 Web 表单上的自动填充？

有没有办法通过 HTML 或 JavaScript 禁用 Chrome 和其他浏览器中表单字段的自动填充我不希望浏览器自动填写该浏览器以前用户的表单上的答案我知道我可以清除缓存但我不能依赖重复清除缓存您可以在 HTML 的输入级别添
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
无法将消息发布到服务工作人员，因为控制器值为空

我正在尝试做一个website https secure depths 31934 herokuapp com 在 Service Worker 的帮助下可以离线使用以缓存页面所需的文件我试图让用户控制他希望缓存的图像为此我使用一个
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp

随机推荐

当 Ctrl+Cing 从无限循环中设置 -fbreak-on-exception 时，GHCi 挂起

正如标题所示我在 GHCi 中创建了一个无限循环 f x x 2 g x if f x lt x then g f x 2 else x g 2 通常按 Ctrl C 会产生中断并返回 GHCi 提示符如果我 set fbreak
访客模式，访客选择如何遍历

据我了解在Visitor模式的典型规范中是被访问的对象决定如何遍历而且一般只支持一种遍历顺序参见例如 here or here 是否有一个与双重调度相同的用途的名称但访问者可以决定如何遍历对象层次结构在我的应用程序中一个非常
Swift 替换字符串中的第一个字符

一个非常简单的问题如何替换字符串的第一个字符我可能做错了一些事情但我就是无法让它发挥作用我已经尝试过这个 var query url query stringByReplacingOccurrencesOfString withSt
Windeployqt 错过了一些库并获取了其他不需要的库

通常要部署 Qt 项目我要么继续运行它并找到它抱怨丢失的库并添加它们直到不再有为止使用 dependency walker 完成大部分如果不是全部然后返回到选项 1 或者只是创建一个静态链接版本有时会很痛苦所以我现在想尝试w
将 Python 数据结构输出到 reStructuredText 有哪些方法

我有一个 Python 元组列表我想将其输出到 reStructuredText 中的表中 docutils 库对将 reStructuredText 转换为其他格式有很大的支持但我想直接从内存中的数据结构写入 reStructured
为多项目中的子项目指定不同版本的 sbt？

我有一个包含几个子项目的多项目根项目的project build properties包含 sbt version 0 13 0 事实证明其中一个子项目仅适用于该版本0 12 4由于依赖性问题 I put build propertie
“多可用区部署”和“只读副本多可用区部署”之间的区别

Summary Amazon RDS 有两种主要不同类型的副本多可用区副本和只读副本很容易发现它们的区别不过只读副本已于 2018 年 1 月支持多可用区部署多可用区部署和只读副本版本多可用区部署之间的主要区别是什么在当前
python 中的二维列表数组

我正在尝试创建一个二维矩阵以便每个单元格都包含一个字符串列表矩阵尺寸在创建之前是已知的我需要从一开始就访问任何元素而不是动态填充矩阵我认为需要某种预先分配空间例如我想要一个 2X2 矩阵 A B C d e f f 支持传统的
访问 Thread.Start() 委托函数的返回值

我有一个通过 Thread Start 执行方法的程序该方法有一个我想访问的返回值有没有办法做到这一点这是一个样本 var someValue Thread t new Thread delegate someValue someOb
RestTemplate 设置每个请求的超时时间

我有一个 Service有多种方法每种方法使用不同的 Web api 每个调用都应该有一个自定义的读取超时拥有一个 RestTemplate 实例并通过每个方法中的工厂更改超时是否是线程安全的 HttpComponentsClientH
android_stubs_current_intermediates目录中的.java文件是如何生成的？

Android 构建过程为 android jar 中的每个类生成 Java 存根并将它们存储在以下目录中 out target common obj JAVA LIBRARIES android stubs current interm
通过 PHP-FPM 运行命令行 PHP

目前我将 PHP FPM 与 NGINX 一起用于前端请求但也通过长时间运行的 PHP 脚本运行一些后台进程使用 exec 使用命令行 PHP 运行其他脚本但我在想的是如果这些也通过 PHP FPM 运行效率会更高吗关于我如何
错误“_OBJC_CLASS_$_AppDelegate”，引用自：“和错误：链接器命令失败，退出代码为 1（使用 -v 查看调用）”

我对开发还很陌生我遇到了这个错误如果我的 AppDelegate 文件中缺少某些内容我不会担心所以我会向您展示这些文件 h 文件 import
如何包含需要绝对路径的PHP文件？

我有一个如下的目录结构脚本 php inc include1 phpinc include2 php 对象 object1 php对象 object2 php 肥皂 soap php 现在我在两个中都使用这些对象script php a
我可以自动实现类吗？

在斯卡拉兹每Monad实例自动是一个实例Applicative implicit val listInstance new Monad List def point A a gt A List a def bind A B fa List
Gulp 在 Windows 上运行失败 |错误消息：Microsoft JScript 编译错误、无效字符

我安装了Node js在我的 Windows 7 本地计算机上如以下链接所述安装 node js npm windows 之后我安装了Gulp js通过命令行执行此命令 npm install g gulp 然后我将此路径添加到环境变量
监控mysql的变化

我有一个通过 hibernate 使用 MySQL 数据库的 Java 应用程序数据库实际上用作持久层在程序初始加载时读取数据库然后将记录维护在内存中然而我们增加了额外的复杂性其中另一个进程也可能更改数据库并且如果这些更改能够
在视图中获取 JSON 请求（使用 Django）

我正在尝试设置一个视图以从 API 接收 JSON 通知我正在尝试弄清楚如何获取 JSON 数据目前我以此为起点来查看请求是否被正确接收 def api response request print request return Htt
在多个 go 模块的父目录中运行 `go test`

看一下这个目录结构 root one go mod go sum main go main test go two go mod go sum main go main test go 假设我在父目录中root 我想运行所有子目录中的所有测
如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？

我遇到了数据块中记录损坏的问题我们想要对损坏的记录进行计数并将损坏的记录保存在特定位置作为增量表为此我们正在阅读使用PERMISSIVE并据此进行查询 corrupt record column 我们在 Azure Databric

如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？

如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？ 的相关文章

随机推荐

热门标签

如何在不使用 Azure Databricks 中的 Pyspark 缓存数据的情况下查询损坏记录？的相关文章