apachepig

猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会

Hadoop apachepig

Pig Batch 模式：如何设置日志记录级别以隐藏 INFO 日志消息？

使用阿帕奇猪版本0 10 1 21 重新出口当我执行 Pig 脚本时有很多 INFO 日志记录行如下所示 2013 05 18 14 30 12 810 Thread 28 INFO org apache hadoop mapred

apachepig

使用 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性旋转一张表 Input Id Column1 Column2 Column3 1 Row11 Row12 Row13 2 Row21 Row22 Row23 Output Id Name V

apachepig hadoopstreaming

在 Apache Zeppelin 上运行 Pig 查询

我正在 Apache Zeppelin 中运行以下 Pig 查询 pig query A load Pig data using PigStorage as ExamName ExamId BITSID StudentName Issue

apachepig apachezeppelin

将文件夹名称添加到输出 Pig Latin

我在 HDFS 中有下一个目录结构 logs folder 2021 03 01 log1 log2 log3 2021 03 02 log1 log2 2021 03 03 log1 log2 日志由文本数据组成数据中没有日期因为它已

date Hadoop logging Text apachepig

删除 Pig 输出中的括号和逗号

目前我的输出如下 130 1 131 1 132 1 133 1 137 1 138 2 139 1 140 1 142 2 143 1 我想要这样 130 1 131 1 132 1 我的代码如下 A LOAD user links sm

Hadoop apachepig

Pig：如何将数据连接到嵌套包中的键上

我只是想合并来自的值data2 to data1 on the value1 value2 两者中都可见的键data1 and data2 注意嵌套结构容易吧在面向对象的代码中它是一个嵌套的 for 循环但在 Pig 中感觉就像解

apachepig

我有 50 个字段，pig 中有没有选项可以打印 Apache Pig 中的前 40 个字段？我需要类似 $0-$39 范围的东西

我有 50 个字段 pig 中有没有选项可以打印前 40 个字段我需要的范围是 0 39 美元我不想指定每个字段例如 0 1 2 等当列数较少时给出每一列是可以接受的但是当列数很大时情况又如何呢您可以使用符号前 40 个

apachepig

加入 PIG 对阵 COGROUP

当我在 pig 中使用 COGROUP 而不是 JOIN 时有什么优势性能没有地图减少吗 http developer yahoo com hadoop tutorial module6 html http developer ya

Hadoop apachepig

PIG 将文本行转换为稀疏向量

我必须使用 Apache PIG 将需要合并的文件第一个文件包含书名列表就像这样每个书名都单独一行 Ted Dunning Mahout in Action Leo Tolstoy War and Peace Douglas Adam

Hadoop apachepig

Pig - 使用正则表达式解析字符串

我被困在 Pig 中的字符串解析上我查看了周围的文档regex extract and regex extract all并希望使用其中一项功能我有文件 logs test log cat logs test log user 2425

regex apachepig

使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个

xml Hadoop xpath hive apachepig

处于咕噜模式的猪

我在windows中安装了cygwin hadoop和pig 配置看起来不错因为我可以在批处理和嵌入模式下运行 Pig 脚本当我尝试以 grunt 模式运行 pig 时发生了一些奇怪的事情让我解释我尝试运行一个简单的命令例如 g

Hadoop Cygwin apachepig gruntjs

运行 Pig 脚本时的堆空间问题

我正在尝试执行包含大约 3000 万数据的 Pig 脚本但收到以下堆空间错误 gt ERROR 2998 Unhandled internal error Java heap space gt gt java lang OutOfMemo

Hadoop apachepig heapmemory

如何使用通配符投影别名？

一旦我做了一个join A by id B by id 我得到一个带有字段的别名A f B f 有没有办法只将其投影到A fields C join A by id B by id D filter C by B n lt 1000 E f

apachepig

Hive 和 PIG/Grunt shell 挂在 cygwin 上

我在 Windows 7 机器 32 位上以本地模式运行 Hadoop 我已将 HIVE PIG Hadoop Java6 全部安装在 C 驱动器上我使用的 Cygwin 版本 2 819 我已将 C 安装在 cygwin 上我可以从

windows7 Hadoop Cygwin hive apachepig

group by 之后的拉丁猪袋到元组

我有以下带有架构的数据 t0 chararray t1 int t2 int B 4 2 A 2 3 A 3 2 B 2 2 A 1 2 B 1 2 我想生成以下结果按 t0 分组并按 t1 排序 A 1 2 2 3 3 2 B 1 2

apachepig

猪中的正则表达式匹配

使用 apache pig 和文本 hahahah my brother just didnt do anything wrong He cheated on a test no way 我试图匹配我哥哥只是没有做错任何事理想情况下我

regex Hadoop apachepig

Pig - 如何迭代一袋地图

让我解释一下这个问题我有这行代码 u FOREACH persons GENERATE FLATTEN 0 experiences as j dump u 产生以下输出 id 1 date begin 12 2012 descriptio

Hadoop Bigdata apachepig

使用 Pig 中的elephantbird 进行 Json 解析

我无法在 Pig 中解析以下数据这是 Twitter API 在获取某个用户的所有推文后返回的内容源数据我删除了一些数字以免无意中侵犯任何人的隐私 created at Sat Nov 01 23 15 45 0000 2014 i

Hadoop apachepig elephantbird