Pig 本地模式、组或 join = java.lang.OutOfMemoryError: Java 堆空间

2024-01-15

Using Apache Pig 版本 0.10.1.21(报道), CentOS 版本 6.3(最终版),jdk1.6.0_31(Virtualbox 上的 Hortonworks Sandbox v1.2,具有 3.5 GB RAM)

$ cat data.txt
11,11,22
33,34,35
47,0,21
33,6,51
56,6,11
11,25,67

$ cat GrpTest.pig
A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:int,f3:int);
B = GROUP A BY f1;
DESCRIBE B;
DUMP B;

pig -x local GrpTest.pig

[Thread-12] WARN  org.apache.hadoop.mapred.JobClient - No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
[Thread-12] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
[Thread-13] INFO  org.apache.hadoop.mapred.Task -  Using ResourceCalculatorPlugin : org.apache.hadoop.util.LinuxResourceCalculatorPlugin@19a9bea3
[Thread-13] INFO  org.apache.hadoop.mapred.MapTask - io.sort.mb = 100
[Thread-13] WARN  org.apache.hadoop.mapred.LocalJobRunner - job_local_0002
java.lang.OutOfMemoryError: Java heap space
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:949)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:674)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:756)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)
[main] ERROR org.apache.pig.tools.pigstats.PigStatsUtil - 1 map reduce job(s) failed!
[main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator for alias B

The java.lang.OutOfMemoryError:Java堆空间每次我在本地模式下执行的 Pig 脚本中使用 GROUP 或 JOIN 时都会发生错误。在HDFS上以mapreduce模式执行脚本没有错误。

问题1:当数据样本很小并且本地模式应该比 HDFS 模式使用更少的资源时,为什么会出现 OutOfMemory 错误?

问题2: 有没有办法在本地模式下成功运行GROUP或JOIN的小猪脚本?


解决方案:强制pig为java属性io.sort.mb分配更少的内存 我这里设置为10MB,错误就消失了。不确定什么是最好的价值,但至少,这允许在本地模式下练习 Pig 语法

$ cat GrpTest.pig
--avoid java.lang.OutOfMemoryError: Java heap space (execmode: -x local)
set io.sort.mb 10;

A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:int,f3:int);
B = GROUP A BY f1;
DESCRIBE B;
DUMP B;
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pig 本地模式、组或 join = java.lang.OutOfMemoryError: Java 堆空间 的相关文章

随机推荐