Pig 本地模式、组或 join = java.lang.OutOfMemoryError: Java 堆空间

2024-01-15

Using Apache Pig 版本 0.10.1.21（报道）， CentOS 版本 6.3（最终版），jdk1.6.0_31（Virtualbox 上的 Hortonworks Sandbox v1.2，具有 3.5 GB RAM）

$ cat data.txt
11,11,22
33,34,35
47,0,21
33,6,51
56,6,11
11,25,67

$ cat GrpTest.pig
A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:int,f3:int);
B = GROUP A BY f1;
DESCRIBE B;
DUMP B;

pig -x local GrpTest.pig

[Thread-12] WARN  org.apache.hadoop.mapred.JobClient - No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
[Thread-12] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
[Thread-13] INFO  org.apache.hadoop.mapred.Task -  Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@19a9bea3
[Thread-13] INFO  org.apache.hadoop.mapred.MapTask - io.sort.mb = 100
[Thread-13] WARN  org.apache.hadoop.mapred.LocalJobRunner - job_local_0002
java.lang.OutOfMemoryError: Java heap space
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:949)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:674)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:756)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)
[main] ERROR org.apache.pig.tools.pigstats.PigStatsUtil - 1 map reduce job(s) failed!
[main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator for alias B

The java.lang.OutOfMemoryError：Java堆空间每次我在本地模式下执行的 Pig 脚本中使用 GROUP 或 JOIN 时都会发生错误。在HDFS上以mapreduce模式执行脚本没有错误。

问题1：当数据样本很小并且本地模式应该比 HDFS 模式使用更少的资源时，为什么会出现 OutOfMemory 错误？

问题2: 有没有办法在本地模式下成功运行GROUP或JOIN的小猪脚本？

解决方案：强制pig为java属性io.sort.mb分配更少的内存我这里设置为10MB，错误就消失了。不确定什么是最好的价值，但至少，这允许在本地模式下练习 Pig 语法

$ cat GrpTest.pig
--avoid java.lang.OutOfMemoryError: Java heap space (execmode: -x local)
set io.sort.mb 10;

A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:int,f3:int);
B = GROUP A BY f1;
DESCRIBE B;
DUMP B;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

Pig 本地模式、组或 join = java.lang.OutOfMemoryError: Java 堆空间的相关文章

是否可以将参数值传递给 UDF 构造函数？

我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc
在 Hadoop 中将多个文件合并为一个

我将多个小文件放入我的输入目录中我想将它们合并为一个文件而不使用本地文件系统或编写 mapreds 有没有办法使用 hadoof fs 命令或 Pig 来做到这一点 Thanks 为了将所有内容保留在网格上请使用带有单个减速器和 ca
使用各种语言在 Hadoop 中运行作业的优缺点是什么？

到目前为止我一直使用 Pig 或 Java 进行 MapReduce 专门针对 Hadoop 集群运行作业我最近尝试通过 Hadoop 流使用 Python Map Reduce 这也很酷所有这些对我来说都有意义但我对何时想要使用一
PIG 中整组记录的最大值/最小值

我有一组从文件加载的记录我需要做的第一件事是获取列的最大值和最小值在 SQL 中我将使用如下子查询来执行此操作 select c state c population select max c population from stat
Pig 本地模式、组或 join = java.lang.OutOfMemoryError: Java 堆空间

Using Apache Pig 版本 0 10 1 21 报道 CentOS 版本 6 3 最终版 jdk1 6 0 31 Virtualbox 上的 Hortonworks Sandbox v1 2 具有 3 5 GB RAM cat
可以使用 PIG 读取的文件格式

使用PIG可以读取哪些类型的文件格式如何以不同的格式存储它们假设我们有 CSV 文件我想将其存储为 MXL 文件如何做到这一点每当我们使用 STORE 命令时它都会创建目录并将文件存储为part m 00000 我如何更改文件名
在 Pig 中解析复杂的 JSON 字符串

我想在 Pig 中解析一串复杂的 JSON 具体来说我希望 Pig 将我的 JSON 数组理解为一个包而不是单个字符数组使用 JsonLoader 时我可以通过指定架构轻松完成此操作如下所示这个问题 https stackover
如何用猪拉丁语组合/连接两个袋子

我有两个数据集 A uid url B uid url 现在我做了一个cogroup C COGROUP A BY uid B BY uid 我想将 C 更改为 group AS uid DISTINCT A url B url 我的问题是
PIG 中的 GROUP 和 COGROUP 有什么区别？

我知道 Group 不能处理多个元组因此我们在 PIG 中有 COGROUP 然而今天检查时 GROUP 命令对我有用我正在使用 PIG 0 12 0 我的命令和输出如下 grunt gt grpvar GROUP C by 2 B
如何在有或没有 Pig 的情况下使用 Cassandra 的 Map Reduce？

有人可以解释 MapReduce 如何与 Cassandra 6 配合使用吗我已经阅读了字数统计示例但我不太明白 Cassandra 端与客户端端发生的情况 https svn apache org repos asf cassan
strsplit 问题 - Pig

我有以下元组 H1 我想将其 0 拆分为元组但是我总是收到错误消息 DUMP H1 item32 item31 1 m FOREACH H1 GENERATE STRSPLIT 0 50 ERROR 1000 解析期间出错第 1 行第
Pig Latin：从某个日期范围加载多个文件（目录结构的一部分）

我有以下场景小猪版本使用0 70 HDFS 目录结构示例 user training test 20100810
Pig - 如何迭代一袋地图

让我解释一下这个问题我有这行代码 u FOREACH persons GENERATE FLATTEN 0 experiences as j dump u 产生以下输出 id 1 date begin 12 2012 descriptio
group by 之后的拉丁猪袋到元组

我有以下带有架构的数据 t0 chararray t1 int t2 int B 4 2 A 2 3 A 3 2 B 2 2 A 1 2 B 1 2 我想生成以下结果按 t0 分组并按 t1 排序 A 1 2 2 3 3 2 B 1 2
使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个
我有 50 个字段，pig 中有没有选项可以打印 Apache Pig 中的前 40 个字段？我需要类似 $0-$39 范围的东西

我有 50 个字段 pig 中有没有选项可以打印前 40 个字段我需要的范围是 0 39 美元我不想指定每个字段例如 0 1 2 等当列数较少时给出每一列是可以接受的但是当列数很大时情况又如何呢您可以使用符号前 40 个
在 Apache Zeppelin 上运行 Pig 查询

我正在 Apache Zeppelin 中运行以下 Pig 查询 pig query A load Pig data using PigStorage as ExamName ExamId BITSID StudentName Issue
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
在 PIG 中加载文件时如何忽略“（双引号）？

我的文件中有以下数据 a b 1 2 a b 4 3 a b 3 1 我正在使用以下命令读取此文件 File1 LOAD path using PigStorage as f1 chararray f2 chararray f3 int f

随机推荐