如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？

2023-12-12

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

恕我直言，最直接的方法是在写入 parquet 文件之前使用重新分区/合并（除非数据倾斜并且您想要创建相同大小的输出，否则最好合并），这样您就不会创建小文件。

df
  .map(<some transformation>)
  .filter(<some filter>)
  ///...
  .coalesce(<number of partitions>)
  .write
  .parquet(<path>)

分区数可以根据数据帧中的总行数除以某个因素来计算，通过反复试验将为您提供适当的大小。

在大多数大数据框架中，最佳实践是优先选择少量较大的文件而不是许多小文件（我通常使用的文件大小是 100-500MB）

如果您已经有小文件中的数据，并且您想要合并它，据我所知，您将必须使用 Spark 重新分区来读取它到更少的分区，然后再次写入。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

apachesparksql

parquet

如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？的相关文章

在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
尝试从 Spark 连接到 Oracle

我正在尝试将 Oracle 连接到 Spark 并希望从某些表和 SQL 查询中提取数据但我无法连接到 Oracle 我尝试过不同的解决方案但没有看到我已按照以下步骤操作如果我需要进行任何更改请纠正我我使用的是 Windows
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何从 pyspark 中的数据框中选择一系列行

我有一个包含 10609 行的数据框我想一次将 100 行转换为 JSON 并将它们发送回 Web 服务我尝试过使用 SQL 的 LIMIT 子句例如 temptable spark sql select item code 1 fr
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回

随机推荐

如何比较sql中的长文本和日期值？

我以 dd mm yyyy 格式存储日期值作为长文本我需要将此值与CURDATE 在一个SELECT陈述请不要问我为什么要以长文本形式保存有什么办法可以做到吗这段代码当然不起作用但它说明了我想要做的事情 WHERE longtex
UWP 尝试使用附加的依赖属性对滚动查看器进行动画处理

我正在尝试在 UWP 中对滚动查看器的水平偏移进行动画处理但动画目标未识别附加属性
为什么 DateTime.ToString("dd/MM/yyyy") 给我 dd-MM-yyyy ？

我希望将我的日期时间转换为格式为 dd MM yyyy 的字符串每当我使用它进行转换时DateTime ToString dd MM yyyy I get dd MM yyyy反而我必须设置某种文化信息吗斜杠是日期分隔符因此将使用当
如何找出 .net 类实现了哪些接口？

好的我最近一直在学习 c 和 net c 文档中似乎缺少一件事http msdn microsoft com java 文档中存在例如数组列表文档是一个java类的文档会这样说所有实现的接口可序列化可克隆可迭代集合列表随
如何禁用 grails 中的 log4j 插件？

看来Grails 2 1 log4j 插件在 grails 应用程序初始化期间重置 log4j 配置请参阅下面的堆栈跟踪 at org apache log4j LogManager resetConfiguration LogManag
使用 Spark 从 Scala 中的 Dataframe 中的数组列中删除 null (1.6)

我有一个带有 id 列的数据框和一个具有结构数组的列架构 root id string nullable true desc array nullable false element struct containsNull true na
提交 HTML 表单后，如何使用 FastAPI 将用户重定向回主页？

我有一个包含学生表格的页面我添加了一个按钮允许您向表中添加新行为此我将用户重定向到带有输入表单的页面问题是提交完成的表单后用户会转到一个新的空白页面如何传输已完成表单中的数据并将用户重定向回表格我刚刚开始学习Web编程所
Eclipse 插件 - 如何获取编辑器的最后工作

我正在编写一个 Eclipse 插件它通过几个按钮向用户公开一个视图单击任何按钮时我想将特定注释粘贴到用户当前正在工作的编辑器窗口中以及他指向的光标位置一旦用户单击该按钮编辑器窗口就不再具有焦点并且以下代码不起作用 workbe
来自参数的 Azure 数据工厂源数据集值

我在 Azure Datafactory 中有一个由 CSV 文件支持的数据集我在数据集中添加了一个附加列并希望从数据集参数传递它的值但值永远不会复制到该列 type AzureBlob structure name MyField
在 where 子句中使用局部变量的替代方法

我有一个查询其中有一个使用多个局部变量构建的 where 子句但这非常慢以下是一个粗略的示例因为我当前无权访问该查询 declare a varchar 50 b varchar 50 c varchar 50 set a set
如何配置 ESLint 以允许粗箭头类方法

ESLint 正在抛出一个Parsing error Unexpected token 当我尝试 lint 我的 Es6 类时出错我缺少什么配置参数来启用 eslint 中的胖箭头类方法示例类 class App extends Rea
在 Haskell 中如何轮询文件、套接字或句柄以使其可读/可写？

我如何从 Haskell 观看多个文件套接字并等待它们变得可读可写 Haskell 中有类似 select epoll 的东西吗或者我被迫为每个文件套接字生成一个线程并始终使用该线程内的阻塞资源这个问题是错误的你不是force
如何从字符串中去除特定标签和特定属性？

事情是这样的我正在做一个项目来帮助人们教授 HTML 我自然是害怕史蒂夫那个渣男见图1 所以我想阻止ALLHTML 标签 except那些在非常具体的情况下批准的白名单在那些已批准的 HTML 标签中我想删除有害的属性以及例如on
为什么 Spring MVC 报告“找不到类型的返回值的转换器：class org.json.JSONObject”？

我想返回一个由两个字符串组成的 JSON 但不知道如何实现它这是我的代码 PostMapping public ResponseEntity lt gt createUser RequestBody User user JSONObjec
避免返回所有实体的学说

使用Symfony2 doctrine2 当我们使用find 函数根据选择的实体获取特定对象如果存在关系时如OneToMany Doctrine返回所有其他对象例如 em this gt get doctrine orm entit
IOS 自动布局更改旋转位置

我想将一个容器发送到另一个容器的下方纵向发送横向发送并排仅使用自动布局可以吗我知道我可以通过编程来做到这一点只是想知道是否可以从布局中做到这一点像这样 Well didRotateFromInterfaceOrientation
如果 popstate 事件来自 HTML5 Pushstate 的后退或前进操作，如何检索？

我正在开发一个网页根据下一个或后一个操作我执行相应的动画使用推送状态时会出现问题当我收到事件时我如何知道用户是否使用 Pushstate API 单击后退或前进历史记录按钮或者我是否必须自己实现某些内容您必须自己实现它这很容易
C# WriteFile()，无法写入USB HID设备

我对 C 和 Windows 编程相当陌生我正在尝试在 USB HID 设备之间建立通信我使用 SetupDiGetDevicexxxxxx 成功获取设备路径并使用 CreateFile 获取句柄下面是我的代码 public con
使用map()时出现意外的逗号

我有一个包含元素列表的数组我尝试使用模板字符串将此列表附加到 HTML 元素 var description HTML CSS Javascript object oriented programming Progressive Web
如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件恕我直言最直接的方法是在写入 parquet 文件之前使用重新分区合并除非数据倾斜并且您想要创建相同大小的输出

如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？

如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？ 的相关文章

随机推荐

热门标签

如何用Spark高效读取多个小parquet文件？有CombineParquetInputFormat吗？的相关文章