有效合并大镶木地板文件

2024-01-02

我正在使用 parquet-tools 来合并 parquet 文件。但 parquet-tools 似乎需要与合并文件一样大的内存。我们是否有其他方法或 parquet-tools 中的可配置选项来更有效地使用内存？因为我在 hadoop env 上将合并作业作为映射作业运行。并且容器每次都会被杀死，因为它使用的内存比提供的内存多。

谢谢。

我不建议使用 parquet-tools merge，因为它只是将行组一个接一个地放置，所以您仍然会有小组，只是打包在一个文件中。生成的文件通常不会具有明显更好的性能，并且在某些情况下它甚至可能比单独的文件性能更差。看实木复合地板-1115 https://issues.apache.org/jira/browse/PARQUET-1115了解详情。

目前，合并 Parquet 文件的唯一正确方法是读取其中的所有数据并将其写入新的 Parquet 文件。您可以使用 MapReduce 作业（需要为此目的编写自定义代码）或使用 Spark、Hive 或 Impala 来完成此操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

parquet

有效合并大镶木地板文件的相关文章

使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce

随机推荐

Android 数据存储 IOException 无法重命名为

我正在尝试在我的项目中实现 Jetpack Datastore 我当时用的是apha 01版本和代码工作正常然后我在Gradle文件中看到有新版本所以我将其更新为alpha 03 启动我的应用程序后我遇到了另一个问题我发现Proto库
为什么我在 Android 上无法检测到带有 unicode 字符的 wifi SSID？

我有一个 Wi Fi AP 其 SSID 是一串 unicode 字符例如我希望 Android 设备连接到它当我的设备 Nexus One 检测到热点时 SSID 看起来像这样并且无法识别它知道如何解决这个问题吗 802 11数
Python数据结构按字母顺序排序列表[重复]

这个问题在这里已经有答案了我对 python 中的数据结构有点困惑 and 我正在尝试对一个简单的列表进行排序可能是因为我无法识别数据的类型所以无法对其进行排序我的清单很简单 Stem constitute Sedge Eflux
Scala：在路径相关上下文中重用路径相关类型产生的泛型

简而言之以下内容无法编译原因如下我怎样才能使其工作 trait Simulator type CM T def useCM v CM case class CMH S lt Simulator T cm S CM T class Si
查找不平衡的大括号和圆括号

海湾合作委员会4 6 0 GNU Emacs 23 2 1 我有一些 C 代码在某些时候我一定犯了一个打字错误现在我留下了不平衡的花括号或括号我有大约 2000 行代码我只是想知道有什么技术可以找到它们吗 Emacs 有一些很好的功
我应该使用 ON DELETE CASCADE、 :dependent => :destroy 还是两者都使用？

在 Rails 应用程序中我在 MySQL 中有外键约束我将它们全部手动设置与我的迁移分开我想弄清楚我是否应该使用 ActiveRecord dependent gt destroy选项例如在我的架构中我有表 users log
如何在 python 中检索按钮的行和列信息并使用它来更改其设置

我正在创建一个游戏并尝试用 python 和 tkinter 制作它我已经用基于单词的 python 完成了它并希望将其图形化我创建了一个用作网格的按钮网格这些按钮当前带有字母 O 以显示空白区域然而我想要的是显示海盗所在位置的
使用 DataFrame.lookup 获取列名称是字符串子集的行

假设有一个如下所示的简单数据框 data grades Feb 10 20 30 40 50 grades Jan 5 10 15 20 25 grades April 1 2 3 4 5 months Feb April Jan Feb
如何使用具有深度限制的 jQuery find() ？

我需要使用 jquery 的 find 选择器来获取所有具有 field container 类的 div 问题是我无法深入 DOM 树这是我的简化 HTML 结构 div div div class field container sp
JTable 中的多行选择

我有一个 JTable 其中一列是不可编辑的文本第二列是一个显示布尔值的复选框现在我想要的是当用户选择多行并取消选中其中任何一行时选中复选框则选择下的所有复选框都应取消选中反之亦然使用 Hovercraft 的示例和 camic
简单插入适用于 phpmyadmin 但不适用于 php

我正在尝试使用 mysql query 插入此查询 INSERT INTO um group rights um group id cms usecase id um right id VALUES 2 1 1 INSERT INTO um
MySQL / MariaDB：如何查找基于时间的数据的差距？

记录器系统每 5 秒保存一行数据秒 0 5 10 15 55 时间类似于23 00 07不可能有时记录器由于通信错误而无法保存并且表中只是缺少行我需要检测这些间隙我想读取间隙之前的最后一行和间隙之后的第一行这些是演示数据 cr
来自升序序列的连续子列表

given xs 1 2 3 4 6 7 9 10 11 我的目标是回来 1 2 3 4 6 7 9 10 11 我想我可以这样做 groupBy x y gt succ x y xs 但这会返回 1 2 3 4 6 7 9 10 11 进
哪个 .NET 版本适用于 C# 5 异步功能 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 用户必须在计算机上安装哪个版本的 N
python属性前后带有下划线有什么区别[重复]

这个问题在这里已经有答案了我想知道Python中这些有什么区别 self var1 self var1 self var1 self var1 作为起点您可能会发现这句话很有帮助PEP 8 Python 代码风格指南 http www
在编写 Spring Resource Bundle 时是否有单一规则来处理单引号？

春天的ResourceBundleMessageSource uses MessageFormat用于替换占位符 0 内部消息 MessageFormat要求单引号使用两个单引号 see 消息格式 Javadoc http docs or
从文本块中删除停用词

我正在处理一个文本块步骤之一是删除停用词 Textblob 是不可变的因此我将其转换为列表来完成这项工作 blob tb tekst lista word for word in blob words if word not in st
可以同时延长2个课程吗？

我有这些课程 public class myClassPage System Web UI Page public myClassPage public class myClassControl System Web UI UserCont
碰撞检测和碰撞响应

我一直在尝试使用 androids Opengl 来表示一些移动旋转的对象现在我想让他们碰撞并做出现实的反应通过研究这个问题我可以找到许多资源这些资源建议我如何确定两个 3D 形状是否在当前帧中发生碰撞或者它们是否会在下一帧中发
有效合并大镶木地板文件

我正在使用 parquet tools 来合并 parquet 文件但 parquet tools 似乎需要与合并文件一样大的内存我们是否有其他方法或 parquet tools 中的可配置选项来更有效地使用内存因为我在 hadoop

有效合并大镶木地板文件

有效合并大镶木地板文件 的相关文章

随机推荐

热门标签

有效合并大镶木地板文件的相关文章