从 Spark 读取多个 json 文件

2024-02-13

我有一个 json 文件列表,我想并行加载它们。

我不能使用read.json("*")因为文件不在同一个文件夹中,并且没有我可以实现的特定模式。

我试过了sc.parallelize(fileList).select(hiveContext.read.json)但正如预期的那样,执行程序中不存在配置单元上下文。

有任何想法吗?


看来我找到了解决方案:

val text sc.textFile("file1,file2....")
val df = sqlContext.read.json(text)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 Spark 读取多个 json 文件 的相关文章

  • 使用 Spark SQL 时找不到 Spark Logging 类

    我正在尝试用 Java 进行简单的 Spark SQL 编程 在程序中 我从 Cassandra 表获取数据 将RDD into a Dataset并显示数据 当我运行spark submit命令 我收到错误 java lang Class
  • 如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID?

    我正在使用 Spark submit 命令提交 Apache Spark 作业 我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么 可以解析 Spark submit 命令的输出以获取
  • Spark如何选择节点来运行执行器?(spark on YARN)

    Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式 集群有 120 个节点 昨天 一个 Spark 作业创建了 200 个执行程序 而节点 1 上有 11 个执行程序 Node2上有1
  • Spark、pyspark中从TF-IDF到LDA聚类

    我正在尝试对存储在格式键 listofwords 中的推文进行聚类 我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
  • 在 Databricks / Spark 中的 SQL 中为变量分配动态值

    我觉得我一定在这里遗漏了一些明显的东西 但我似乎无法在 Spark SQL 中动态设置变量值 假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
  • 使用列的长度过滤 DataFrame

    我想过滤一个DataFrame使用与列长度相关的条件 这个问题可能很简单 但我在SO中没有找到任何相关问题 更具体地说 我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
  • PySpark DataFrame 上分组数据的 Pandas 式转换

    如果我们有一个由一列类别和一列值组成的 Pandas 数据框 我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
  • 按元素聚合数组

    Spark scala 相当新 我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
  • 读取不同文件夹深度的多个 csv 文件

    我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话 使用单一路径 我的文件夹结构如下所示 我想包含具有一个路径的所有文件 resources first csv resources subfo
  • Spark SQL/Hive 查询通过 Join 永远持续下去

    所以我正在做一些应该很简单的事情 但显然它不在 Spark SQL 中 如果我在 MySQL 中运行以下查询 查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
  • 为什么 Spark 退出并显示 exitCode: 16?

    我将 Spark 2 0 0 与 Hadoop 2 7 一起使用 并使用纱线集群模式 每次 我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
  • Spark Dataframe/Parquet 中的枚举等效项

    我有一个包含数亿行的表 我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘 我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化 这些列中很大一部分是字符串值 它们可能很长 但值通常也
  • Pyspark - 一次聚合数据帧的所有列[重复]

    这个问题在这里已经有答案了 我想将数据框分组到单个列上 然后对所有列应用聚合函数 例如 我有一个包含 10 列的 df 我希望对第一列 1 进行分组 然后对所有剩余列 均为数字 应用聚合函数 sum 与此等效的 R 是 summarise
  • 如何指定spark-submit使用的Python版本?

    我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时 该应用程序使用默认版本的 Python 但是 我想使用另一个 如何指定spark submit使用的Python版本 您可以设置PYSPARK P
  • 将spark.local.dir设置为不同的驱动器

    我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
  • 如何在 pySpark 数据框中添加行 ID [重复]

    这个问题在这里已经有答案了 我有一个 csv 文件 我在 pyspark 中将其转换为 DataFrame df 经过一番改造后 我想在 df 中添加一列 这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
  • 如何强制 Spark 执行代码?

    我如何强制 Spark 执行对 map 的调用 即使它认为由于其惰性求值而不需要执行它 我试过把cache 与地图调用 但这仍然没有解决问题 我的地图方法实际上将结果上传到 HDFS 所以 它并非无用 但 Spark 认为它是无用的 简短回
  • 如何处理 Spark 数据框中外连接的数据倾斜

    我有两个数据框 正在对 5 列执行外连接 下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
  • Spark LDA 困境 - 预测和 OOM 问题

    我正在评估 Spark 1 6 0 来构建大型 数百万个文档 数百万个特征 数千个主题 LDA 模型并进行预测 这是我可以使用 Yahoo 轻松完成的任务 LDA 从小处开始 按照 Java 示例 我使用分布式模型 EM 优化器构建了 10
  • 指定 Parquet 属性 pyspark

    如何在 PySpark 中指定 Parquet 块大小和页面大小 我到处搜索 但找不到任何有关函数调用或导入库的文档 根据火花用户档案 https mail archives apache org mod mbox spark user 2

随机推荐

  • Spring基于注解的DI vs xml配置?

    最近 在我们的团队中 我们开始讨论在代码中使用 spring 注释来定义 spring 依赖项 目前我们正在使用 context xml 来定义我们的依赖项 您能给我一些关于这两种方法的线索吗 什么时候使用一种方法更好 编辑 我知道这对于一
  • 具有综合和继承属性的深度递归 qi 语法(解析器)

    我使用spirit qi 语法来构造并返回非平凡对象作为其合成属性 问题是我希望语法递归地相互依赖 使用递归很简单rules 但我想要递归grammars 这是一些示例代码 请注意 循环引用 的注释 显然 如果我取消注释这些行 则无法编译
  • PhoneGap 在表单提交时将图像上传到服务器

    我在这里面临问题 因为一旦您选择图片 phonegap 图像就会上传到服务器 我不想在提交表单之前上传图像 图像自动上传到服务器 这是我不想要的 我想使用表单上传图像 其中表单包含更多与图像一起发送所需的字段 可以通过哪些方式提交表单
  • 如何让Vue在shadow dom中工作

    我有一个 Shadow dom 其中包含根元素和一个 vue 组件
  • 创建一个服务来在 Android 应用程序中的所有活动之间共享数据库连接?

    我一直在试图找出在我的 Android 应用程序中处理本地数据库访问的最佳方法 我一直在每个活动中创建一个数据库连接对象 但这似乎是一种非常低效的做事方式 做了一些研究我偶然发现这次讨论 http groups google com gro
  • 连接四游戏检查胜利 JS

    我正在开发我的第一个完整程序 并进行了两周的编程 但遇到了我似乎无法弄清楚的障碍 我正在制作一个 connect 4 游戏 并首先在 JavaScript 中构建逻辑 然后再推送到 DOM 我开始使用构造函数创建的单元对象来制作它 然后将其
  • 实现 SMS 的 GSM 调制解调器 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个为大约 1000 位用户提供服务的网站 负责协调活动安排 我想让我们的系统能够向用户发送短信 我
  • 在 python 中将 pcolormesh 与 3 个一维数组一起使用

    我正在尝试使用 pcolormesh 绘制 3 个填充坐标和值的一维数组 下面的数组只是示例 但它们遵循相同的原则 我有 3 个数组 一个用于 x 坐标 一个用于 y 坐标 一个用于它们的值 或 z 每个索引对应一个位置 索引 0 对应于
  • R 数据表中最近的“n”滚动连接

    With data table 我们可以使用以下方法将一个数据集中的值与另一个数据集中最接近的值连接起来roll nearest 一些示例数据 dt1 lt data table x c 15 101 id1 c x y dt2 lt da
  • 将行保存为 csv 格式

    我想将数据库中的一组行保存到 csv 文件中 考虑到数据是 ascii 字符 没有任何奇怪的字符 以下内容就足够了吗 my csv row join row save csv row to file 我担心的是 这是否会创建任何工具都可以接
  • 错误“mat-dialog-content”不是已知元素

    我正在尝试使用角度材料创建登录表单 我在用 angular material 7 3 0 In app module ts我导入了以下内容并将它们也放入了导入数组中 import MatToolbarModule MatFormFieldM
  • NHibernate:保留一个带有子对象的对象

    我正在尝试保留一个带有子对象集合的对象 我不能先坚持孩子 因为有FK关系 我可以先保存父级 然后将子级添加到其中 但这会带来更多工作 基本上 我只是想一步一步保存一个完全填充的对象 而不是将其分成几部分 我的映射有问题吗 抱歉它看起来很丑
  • 如何将 mailerlite.com 注册表单与 React 集成?

    Mailerlite com 允许您在网站中嵌入电子邮件注册表单 如何将其与 React 集成 具体来说 如何集成JavaScript代码 下面是一个将 HTML 表单转换为 React 代码的示例 将所有出现的 CODE 替换为示例表单中
  • 从 BouncyCastle X509 证书获取私钥? C#

    通常当我抓住一个X509Certificate2我可以从我的密钥库中调用 PrivateKey检索证书的私钥作为AsymmetricAlgorithm 但是我决定使用 Bouncy Castle 及其实例X509Certificate只有一
  • 如何在input标签内显示div?

    我正在尝试为我的网站创建像 stackoverflow 这样的标签 我网站上的用户将创建用于过滤结果或许多其他操作 如搜索 专业知识等 的标签 我能够创建标签 但无法像我们在 stackoverflow 中那样在输入框中显示它 标签之间的边
  • 为什么“out of source”构建不是默认的?

    我最近发现 您可以配置 Visual Studio 但这个问题对于任何编译器都是一样的 将中间 o 文件转储到源代码树之外的单独文件夹中 而不是与每个单独的项目并置 这使得清理项目 归档到 zip 或类似的东西变得很容易 为什么这种配置不常
  • Asp.Net AJAX 中嵌套 UpdatePanel 中的 AsyncPostback 之间存在差异

    在 ASP net AJAX 项目 WebForms 中 我有一个 UpdatePanel 在 UpdatePanel 中我有多个带有 UpdatePanel 的嵌套控件 基本上我有控件树 家长控制是网站的重要组成部分 我无法触摸它 而且它
  • 为什么 C++ 需要公共继承,忽略友元声明,才能使动态向下转型工作?

    我们在这里上课B 从类继承A 并且它有一个friend class C 作为朋友 C应该可以访问所有内容B 包括A基类 为了测试它 首先我们创建一个B实例 我们将其地址升级为A 然后我们尝试用dynamic cast lt gt 再次到B
  • 如何在 Go 中禁用 git clone 的凭据提示?

    我正在尝试运行相当于git clone在 Go 中 但如果提示输入标准输入 我想退出命令 例如 如果远程存储库中尚未设置 ssh 密钥 则进行身份验证 有没有办法做到这一点 现在它只会阻塞输入 UPDATE 特殊的 git 解决方案 从 v
  • 从 Spark 读取多个 json 文件

    我有一个 json 文件列表 我想并行加载它们 我不能使用read json 因为文件不在同一个文件夹中 并且没有我可以实现的特定模式 我试过了sc parallelize fileList select hiveContext read