_spark_metadata 导致问题

2023-12-21

我将 Spark 与 Scala 一起使用，并且我有一个目录，其中有多个文件。

在这个目录中，我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。

并且Spark Streaming生成一个目录_spark_元数据.

我面临的问题是当我用 Spark 读取目录时（sparksession.read.load），它只读取 Spark Streaming 生成的数据，就像其他数据不存在一样。

有人知道如何解决这个问题吗，我认为应该有一个属性来强制 Spark 忽略火花元数据目录。

感谢您的帮助

我有同样的问题（Spark 2.4.0），我知道的唯一方法是使用掩码/模式加载文件，如下所示

sparksession.read.format("parquet").load("/path/*.parquet")

据我所知有没有办法忽略这个目录 https://stackoverflow.com/q/50847512/2390083。如果存在，Spark 会考虑它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

SparkStreaming

_spark_metadata 导致问题的相关文章

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Scala 函数定义参数列表中不同的括号样式

Scala 中以下两个函数定义有什么区别 1 def sum f Int gt Int a Int b Int Int code 2 def sum f Int gt Int a Int b Int Int code SBT 的控制台 RE
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Scala：如何定义带有变量参数列表的匿名函数？

在 Scala 中如何定义接受可变数量参数的匿名函数 scala gt def foo blah Int gt 3
scala.concurrent.blocking - 它实际上做了什么？

我花了一段时间学习 Scala 执行上下文底层线程模型和并发性的主题你能解释一下通过什么方式吗scala concurrent blocking 调整运行时行为 and 可以提高性能或避免死锁如中所述scaladoc http www
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
为什么我可以使用 Scala REPL 中的 Java 库，但不能使用脚本中的 Java 库？

我正在开发一个使用 Joda Time 的 Scala 脚本直到今天这一切都运行良好不知怎的有些东西发生了变化它不再起作用了这有效 scala cp lib Welcome to Scala version 2 9 1 fina
如何使用 `ProjectRef` 来引用 sbt 1.x 中的本地项目？

其他答案中有很多含糊不清的内容或者涉及到更旧版本的 sbt 即 0 12 x 但似乎没有人真正回答这个问题鉴于我有一个文件夹并且我已经运行 sbt new scala scala seed g8 name Scala Seed Pro
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
如何通过 Scala REPL 使用第三方库？

我已经下载了Algebird我想尝试一些事情Scala 解释器使用这个库我该如何实现这一目标当然您可以使用 scala cp 无论如何并手动管理您的依赖项但这变得非常乏味尤其是当您有多个依赖项时更灵活的方法是使用sbt http
Scala 'null' 是否算作另一种类型的实例？

我有这个代码 class MyLinkedList T h T tail MyLinkedList T def prepend v T MyLinkedList T new MyLinkedList v this 我想知道我如何可以将第二个
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
获取两个顶点之间的边属性值时出现 ClassCastException

我正在尝试获取两个顶点之间的边缘属性值并低于异常 java lang ClassCastException 无法将 java lang String 转换为 scala runtime Nothing 环境内存中的泰坦 Code val
akka http配置中的idle-timeout和request timeout有什么区别？

我查阅了文档并发现了这些空闲连接自动关闭的时间设置infinite完全禁用空闲连接超时空闲超时 10 秒 Defines the default time period within which the application has
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
[json4s]：提取不同对象的数组

我正在使用 facebook graph API 响应看起来与此类似 data id 311620272349920 311718615673419 from id 1456046457993048 name Richard Ettinso
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
Scala 警告、IntelliJ 和编译器标志

我目前正在试用 IntelliJ Scala 插件有件事让我有点烦恼编译时我收到 3 个警告 Warning scala Recompiling 4 files Warning scala Warning scala there wer
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存

随机推荐

使用 IoC 进行单元测试

如何使用 IoC 容器进行单元测试使用 IoC 管理大型解决方案 50 多个项目中的模拟是否有用有什么经验吗有哪些 C 库适合在单元测试中使用它一般来说单元测试不需要 DI 容器因为单元测试就是分离职责考虑一个使用构造函数注
Mongoose 在启动时调用 EnsureIndex，但不建议这样做。那么为什么它是默认的呢？

我无法理解一件事当我们读到猫鼬文档 http mongoosejs com docs guide html 当您的应用程序启动时 Mongoose 会自动调用ensureIndex对于架构中每个定义的索引虽然有利于开发但建议在生产中禁
获取 Windows 中本地计算机用户名列表

如何使用 C 获取 Windows 中本地计算机用户名列表 using System Management SelectQuery query new SelectQuery Win32 UserAccount ManagementObje
ggplot2直方图中每个方面的不同断点

一个 ggplot2 挑战的 latticist 需要帮助在直方图中请求变量每面中断的语法是什么 library ggplot2 d data frame x c rnorm 100 10 0 1 rnorm 100 20 0 1 par
基本教师登录的用例图

我正在创建一个非常基本的用例图来显示教师登录该登录包括一个忘记密码如果用户忘记密码和一个重置密码如果他们希望在登录后重置密码我的问题是以下用例图表创建尤其是包含和扩展这确实是非常基本的通常登录宁愿成为其他用例的先决条件而
通过 C# 和 SMO 检查并删除现有表

我正在尝试按名称查找 SQL 表如果存在则删除它这一切都需要使用 SMO 在 C 中完成更复杂的是该表还有一个 dbo 以外的模式最终该表将通过 SMO 创建我可以正常工作但我必须确保它不存在然后才能重新创建它我看到的所有
如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表

使用以下代码在数据帧中使用联合来并发访问附加行是否可以正常工作目前显示类型错误 from pyspark sql types import schema StructType StructField owreg StringType Tr
Laravel 'like' 查询与 MongoDB 连接

我在 laravel like 查询中遇到问题我在 laravel 上有一个 MIS 数据库在 MongoDb 上现在我的数据库有一个名为kw带有 urlencoded 关键字例如cars 20in 20London 现在我的查询给出
pandas 处理 numpy timedelta64[ms]

gt gt gt import pandas as pd gt gt gt pd version 0 11 0 gt gt gt import numpy as np gt gt gt np version 1 7 1 gt gt gt d
如何从Scala中的资源文件夹中读取文件？

我有一个如下所示的文件夹结构 main java resources scalaresources commandFiles 在该文件夹中我有我必须阅读的文件这是代码 def readData runtype String snmphos
如何在 R 的 For 循环中正确使用 group_by() 和 summarise()

我正在尝试计算一些摘要信息以帮助我检查数据集中不同组中的异常值我可以使用我想要的输出类型dplyr group by and dplyr summarise 包含给定变量的每个组的摘要信息的数据框像这样的事情 Sepal Length
For 循环 gitlab-ci.yml

我有这个代码片段它给了我语法错误意外的文件结尾如果我将其复制到 sh 文件中并在终端中运行它就可以工作 before script sbt sbtVersion for file in pending sql do file bas
在快速枚举期间将对象设置为零[重复]

这个问题在这里已经有答案了我想在枚举数组时将对象设置为 nil 如下所示 for Object object in array object nil 然后 Xcode 告诉我默认情况下无法在 ARC 中修改快速枚举变量声明变量 st
多对多关系桥表困境

salesman uId salesGroupLinked uId groupId add performacesScore field here group groupId 我上面有 3 个表形成了多对多关系我会添加一个字段 perf
如果@EnvironmentObject如何创建通用？

我最近遇到需要编写一个 MockClass 因为它会导致 SwiftUIpreview从工作中不幸的是我收到错误 Property type T does not match that of the wrappedValue prope
React 中基于当前状态的 setState

在 React 中更新有状态组件时组件使用当前状态来更新新状态被认为是一种不好的做法例如如果我有一个类存储过滤器在其状态中是否打开那么在性能方面用于更新状态的这些选项之一是否比另一个更可取选项1 class Container
遍历页面上的所有
标签

我想使用 Javascript 浏览页面上的所有元素看看它们是否设置了属性有没有一种简单的方法可以做到这一点或者我是否必须使用递归解决方案您可以使用 var divs document getElementsByTagName di
在 Gmaps Api 中使用一个航点作为目的地

我正在使用 gmaps Api 为必须访问市场列表我的路径点以记录其股票的人制定一条路线我使用用户的房屋位置作为路线的起点使用市场的位置作为我的路径点问题是我不知道哪个航路点是路线的目的地因为我设置了属性optimization
Sharepoint、计算列、IF 函数和日期

我正在尝试添加一个计算列我有一个日期列其中包含安排会议的日期在本专栏中我需要一个代码如果会议安排在第一季度第二季度第三季度或第四季度则可以返回该代码我有一个静态代码如下所示 IF Date lt 40269 Q1 Q2
_spark_metadata 导致问题

我将 Spark 与 Scala 一起使用并且我有一个目录其中有多个文件在这个目录中我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件并且Spark Streaming生成一个目录 s

_spark_metadata 导致问题

_spark_metadata 导致问题 的相关文章

随机推荐

热门标签

_spark_metadata 导致问题的相关文章