运行 Pig 脚本时的堆空间问题

2024-03-17

我正在尝试执行包含大约 3000 万数据的 Pig 脚本，但收到以下堆空间错误：

> ERROR 2998: Unhandled internal error. Java heap space
> 
> java.lang.OutOfMemoryError: Java heap space
>         at java.util.Arrays.copyOf(Arrays.java:2367)
>         at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:130)
>         at java.lang.AbstractStringBuilder.ensureCapacityInternal(AbstractStringBuilder.java:114)
>         at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:415)
>         at java.lang.StringBuilder.append(StringBuilder.java:132)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.shiftStringByTabs(LogicalPlanPrinter.java:223)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:108)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirst(LogicalPlanPrinter.java:102)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.depthFirstLP(LogicalPlanPrinter.java:83)
>         at org.apache.pig.newplan.logical.optimizer.LogicalPlanPrinter.visit(LogicalPlanPrinter.java:69)
>         at org.apache.pig.newplan.logical.relational.LogicalPlan.getLogicalPlanString(LogicalPlan.java:148)
>         at org.apache.pig.newplan.logical.relational.LogicalPlan.getSignature(LogicalPlan.java:133)
>         at org.apache.pig.PigServer.execute(PigServer.java:1295)
>         at org.apache.pig.PigServer.executeBatch(PigServer.java:375)
>         at org.apache.pig.PigServer.executeBatch(PigServer.java:353)
>         at org.apache.pig.tools.grunt.GruntParser.executeBatch(GruntParser.java:140)
>         at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:202)
>         at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:173)
>         at org.apache.pig.tools.grunt.Grunt.exec(Grunt.java:84)
>         at org.apache.pig.Main.run(Main.java:607)
>         at org.apache.pig.Main.main(Main.java:156)
>         at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
>         at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
>         at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
>         at java.lang.reflect.Method.invoke(Method.java:606)
> ================================================================================

我用 1000 万条数据运行相同的代码，运行良好。

那么有哪些可能的方法可以避免上述问题呢？
压缩是否有助于避免堆空间问题？
我试图将代码分成多个片段，但我仍然得到因此，即使我们增加堆内存分配操作，如果我们对卷执行相同的操作，它也能保证它成立吗？数据的？

您可以通过将 mapred.map.tasks 设置为您想要的任何数量来增加映射器的数量。然后运行你的脚本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

heapmemory

运行 Pig 脚本时的堆空间问题的相关文章

Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
纱线堆的使用量随着时间的推移而增长

我们在 AWS EMR 上运行 Spark Streaming 作业该作业将稳定运行 10 到 14 小时然后崩溃并且 stderr stdout 或 Cloudwatch 日志中没有明显错误在此崩溃之后任何重新启动作业的尝试都将
堆内存和Slab分配

我很困惑heap and free list 我有几个问题我对C中malloc的工作原理有自己的理解如果我错了请纠正我堆内存是否被组织为数据的链表空闲列表块堆内存和空闲列表有区别吗我对存储分配的理解有待改进当我们调用ma
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
C 中的堆错误

我知道这确实很一般但当我在 Visual C 2008 Express 中运行 c 文件时我得到 this 见下文当我打电话时会发生这种情况malloc 以我的工作为例我动态地正确分配内存 HEAP Code exe HEAP 释放
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
MISRA C++（规则 18-4-1）和动态内存分配 - 是否允许 std::string？

MISRA C 规则 18 4 1 说不得使用动态堆内存分配 See http dist sonarsource com reports coverage misra c 2008 html http dist sonarsource c
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx

随机推荐

iOS：音频单元、OpenAL 与 Core Audio

有人可以向我解释一下 OpenAL 如何适应 iPhone 上的声音模式吗似乎有不同级别的 API 用于处理声音更高层次的内容很容易理解但我的理解越往下越模糊有核心音频音频单元 OpenAL 这些之间有什么联系呢 openAL 是
代码中使用连接是什么

目的是什么using connection 在代码中请解释一下 static void HasRows SqlConnection connection using connection what is this line SqlComm
（如何）是否可以绑定/重新绑定一个方法以与不同签名的委托一起使用？

我是一名 C 开发人员在 C 中使用过信号和插槽对我来说这似乎类似于 C 中的委托我发现自己在寻找 bind 提供的功能时不知所措感觉我一定错过了一些东西我觉得像下面这样的东西在 c 中是可能的在带有委托的 c 中也应该是可能
如何保持DataFrame中键值的顺序与JSON相同？

JSON 数据示例 name dev salary 100 occupation engg address noida name karthik salary 200 occupation engg address blore Spark
检查路径是否是 Python 2.7 中的套接字

Python 2 7 中确定路径是否是套接字的最佳方法是什么 os path http docs python org 2 library os path html has is 函数为目录 http docs python org 2 l
在 Red Hat 上安装 RabbitMQ - 错误的 Erlang 版本

我正在尝试按照以下说明在 Red Hat Enterprise Linux 7 64 位工作站版本的评估虚拟机上安装 RabbitMQhttps www rabbitmq com install rpm html https www ra
以 Primefaces gmap 中当前位置为中心

是否可以使用 Primefaces 的 gmap 将 google 地图以客户端当前位置为中心我使用 JSF JPA 和 primefaces 开发公共卫生信息系统现场人员需要使用具有GPS功能的移动设备记录位置以便将数据记录到数据库
hg 相当于 git 笔记

Mercurial 中是否有一个类似于 git Notes 的命令据我所知情况并非如此我认为 Hg 还没有一种特殊的对象可以与提交消息关联引入于2007年7月 http kerneltrap org mailarchive git
Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复

我有一个logstash 配置它在输出块中使用以下内容来尝试减少重复 output if type usage elasticsearch hosts gt elastic4 9204 index gt usage YYYY MM dd
我如何在 Python 中执行 strtok() 在 C 中所做的事情？

我正在学习Python 并试图找出一种有效的方法来将由逗号分隔的数字字符串标记为列表结构良好的案例按我的预期工作但结构不太好的案例则不然如果我有这个 A 1 2 3 4 B int x for x in A split B resul
如果缺少可选值，则显式输出 JSON null

考虑使用 Play 的 JSON API 的示例 play api libs json case class FooJson lots of other fields omitted location Option LocationJson
让对象由 spring 管理

我怎样才能管理一个已经存在的对象我想把它连接到Springs AoP能力使用aspectj 我知道这是一个挑战因为Spring AoP使用可能与对象一起创建的动态代理为什么我需要这个我有一个第三者类采用构造函数参数该参数仅在run
从外部访问python开发服务器

我无法从外部访问python开发服务器我的机器上运行着一个非常小的django项目现在我想让同一局域网中的计算机能够访问它但它做不到我的机器上没有运行防火墙有没有解决的办法你如何运行服务器你尝试过这样的事情吗 manage p
如何使用 daniel gindi/Swift 中的图表库在饼图中显示百分比符号（IOS 图表）

我正在使用图表框架由 Daniel gindi 设计工作正常但是如何在饼图上显示符号我还尝试使用 NSNumberFormatter 方法将数据值转换为百分比但没有得到符号我在这里上传代码 IBOutlet var pieC
Bootstrap 3 折叠（从左到右）[重复]

这个问题在这里已经有答案了 http getbootstrap com javascript collapse http getbootstrap com javascript collapse 有没有办法让这个菜单从左向右滑动我环顾四周
如何按对象属性vbscript对字典进行排序

我正在尝试使用我在网上找到的函数对字典进行排序该函数通过对象属性即 Id 进行排序但在此For Each i In dict我收到此错误消息 Microsoft VBScript 运行时错误对象不支持此属性或方法我努力了For E
使用 Interop.Excel 将 Excel 转换为 PDF 时不显示图像

我正在使用 Interop Excel 将 excel xlsx 2010 转换为 PDF 以用于应用程序在我的开发机器上它工作正常并且图像显示正确但是在服务器上当 Excel 转换为 PDF 时图像一些通过代码插入另一些在模
FireMonkey 控件是否具有与 VCL Invalidate() 等效的方法？

我正在创建一些自定义 FireMonkey GUI 控件组件需要更新以响应用户交互 VCL 控件可以调用 Invalidate 将其放入队列中进行重绘 FireMonkey 有等效的方法吗 FireMonkey 控件有一个 Repaint
在 Flutter/Dart 中如何将参数从命令行传递到 main ？

如何运行命令并使用 Flutter Dart 传递一些自定义参数以便可以在main 调用例如 flutter run device my custom arg 那么我可以通过以下方式访问它 void main List
运行 Pig 脚本时的堆空间问题

我正在尝试执行包含大约 3000 万数据的 Pig 脚本但收到以下堆空间错误 gt ERROR 2998 Unhandled internal error Java heap space gt gt java lang OutOfMemo

运行 Pig 脚本时的堆空间问题

运行 Pig 脚本时的堆空间问题 的相关文章

随机推荐

热门标签

运行 Pig 脚本时的堆空间问题的相关文章