_spark_metadata 导致问题

2023-12-21

我将 Spark 与 Scala 一起使用,并且我有一个目录,其中有多个文件。

在这个目录中,我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。

并且Spark Streaming生成一个目录_spark_元数据.

我面临的问题是当我用 Spark 读取目录时(sparksession.read.load),它只读取 Spark Streaming 生成的数据,就像其他数据不存在一样。

有人知道如何解决这个问题吗,我认为应该有一个属性来强制 Spark 忽略火花元数据目录。

感谢您的帮助


我有同样的问题(Spark 2.4.0),我知道的唯一方法是使用掩码/模式加载文件,如下所示

sparksession.read.format("parquet").load("/path/*.parquet")

据我所知有没有办法忽略这个目录 https://stackoverflow.com/q/50847512/2390083。如果存在,Spark 会考虑它。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

_spark_metadata 导致问题 的相关文章

随机推荐

  • 使用 IoC 进行单元测试

    如何使用 IoC 容器进行单元测试 使用 IoC 管理大型解决方案 50 多个项目 中的模拟是否有用 有什么经验吗 有哪些 C 库适合在单元测试中使用它 一般来说 单元测试不需要 DI 容器 因为单元测试就是分离职责 考虑一个使用构造函数注
  • Mongoose 在启动时调用 EnsureIndex,但不建议这样做。那么为什么它是默认的呢?

    我无法理解一件事 当我们读到猫鼬文档 http mongoosejs com docs guide html 当您的应用程序启动时 Mongoose 会自动调用ensureIndex对于架构中每个定义的索引 虽然有利于开发 但建议在生产中禁
  • 获取 Windows 中本地计算机用户名列表

    如何使用 C 获取 Windows 中本地计算机用户名列表 using System Management SelectQuery query new SelectQuery Win32 UserAccount ManagementObje
  • ggplot2直方图中每个方面的不同断点

    一个 ggplot2 挑战的 latticist 需要帮助 在直方图中请求变量每面中断的语法是什么 library ggplot2 d data frame x c rnorm 100 10 0 1 rnorm 100 20 0 1 par
  • 基本教师登录的用例图

    我正在创建一个非常基本的用例图来显示教师登录 该登录包括一个忘记密码 如果用户忘记密码 和一个重置密码 如果他们希望在登录后重置密码 我的问题是以下用例图表创建 尤其是包含和扩展 这确实是非常基本的 通常 登录宁愿成为其他用例的先决条件 而
  • 通过 C# 和 SMO 检查并删除现有表

    我正在尝试按名称查找 SQL 表 如果存在则删除它 这一切都需要使用 SMO 在 C 中完成 更复杂的是 该表还有一个 dbo 以外的模式 最终该表将通过 SMO 创建 我可以正常工作 但我必须确保它不存在 然后才能重新创建它 我看到的所有
  • 如何尽可能高效地将存储在 RDD 列中的多个 json 表“缩减”为单个 RDD 表

    使用以下代码在数据帧中使用联合来并发访问附加行是否可以正常工作 目前显示类型错误 from pyspark sql types import schema StructType StructField owreg StringType Tr
  • Laravel 'like' 查询与 MongoDB 连接

    我在 laravel like 查询中遇到问题 我在 laravel 上有一个 MIS 数据库在 MongoDb 上 现在我的数据库有一个名为kw带有 urlencoded 关键字 例如cars 20in 20London 现在我的查询给出
  • pandas 处理 numpy timedelta64[ms]

    gt gt gt import pandas as pd gt gt gt pd version 0 11 0 gt gt gt import numpy as np gt gt gt np version 1 7 1 gt gt gt d
  • 如何从Scala中的资源文件夹中读取文件?

    我有一个如下所示的文件夹结构 main java resources scalaresources commandFiles 在该文件夹中我有我必须阅读的文件 这是代码 def readData runtype String snmphos
  • 如何在 R 的 For 循环中正确使用 group_by() 和 summarise()

    我正在尝试计算一些摘要信息 以帮助我检查数据集中不同组中的异常值 我可以使用我想要的输出类型dplyr group by and dplyr summarise 包含给定变量的每个组的摘要信息的数据框 像这样的事情 Sepal Length
  • For 循环 gitlab-ci.yml

    我有这个代码片段 它给了我语法错误 意外的文件结尾 如果我将其复制到 sh 文件中并在终端中运行 它就可以工作 before script sbt sbtVersion for file in pending sql do file bas
  • 在快速枚举期间将对象设置为零[重复]

    这个问题在这里已经有答案了 我想在枚举数组时将对象设置为 nil 如下所示 for Object object in array object nil 然后 Xcode 告诉我 默认情况下 无法在 ARC 中修改快速枚举变量 声明变量 st
  • 多对多关系桥表困境

    salesman uId salesGroupLinked uId groupId add performacesScore field here group groupId 我上面有 3 个表 形成了多对多关系 我会添加一个字段 perf
  • 如果@EnvironmentObject如何创建通用?

    我最近遇到需要编写一个 MockClass 因为它会导致 SwiftUIpreview从工作中 不幸的是 我收到错误 Property type T does not match that of the wrappedValue prope
  • React 中基于当前状态的 setState

    在 React 中更新有状态组件时 组件使用当前状态来更新新状态被认为是一种不好的做法 例如 如果我有一个类存储过滤器在其状态中是否打开 那么在性能方面 用于更新状态的这些选项之一是否比另一个更可取 选项1 class Container
  • 遍历页面上的所有

    我想使用 Javascript 浏览页面上的所有元素 看看它们是否设置了属性 有没有一种简单的方法可以做到这一点 或者我是否必须使用递归解决方案 您可以使用 var divs document getElementsByTagName di
  • 在 Gmaps Api 中使用一个航点作为目的地

    我正在使用 gmaps Api 为必须访问市场列表 我的路径点 以记录其股票的人制定一条路线 我使用用户的房屋位置作为路线的起点 使用市场的位置作为我的路径点 问题是我不知道哪个航路点是路线的目的地 因为我设置了属性optimization
  • Sharepoint、计算列、IF 函数和日期

    我正在尝试添加一个计算列 我有一个日期列 其中包含安排会议的日期 在本专栏中 我需要一个代码 如果会议安排在第一季度 第二季度 第三季度或第四季度 则可以返回该代码 我有一个静态代码 如下所示 IF Date lt 40269 Q1 Q2
  • _spark_metadata 导致问题

    我将 Spark 与 Scala 一起使用 并且我有一个目录 其中有多个文件 在这个目录中 我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件 并且Spark Streaming生成一个目录 s