apachepig

在 Hadoop 中将多个文件合并为一个

我将多个小文件放入我的输入目录中我想将它们合并为一个文件而不使用本地文件系统或编写 mapreds 有没有办法使用 hadoof fs 命令或 Pig 来做到这一点 Thanks 为了将所有内容保留在网格上请使用带有单个减速器和 ca

Hadoop apachepig

Hadoop Pig：传递命令行参数

有没有办法做到这一点例如传递要处理的文件的名称等这出现在另一个问题 https stackoverflow com questions 3515481 pig latin load multiple files from a date

Hadoop apachepig

在 Pig 中删除单列

我正在按大约 20 个 ID 的列表过滤表现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B

Hadoop MapReduce apachepig

是否可以将参数值传递给 UDF 构造函数？

我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc

apachepig

从其他 Pig 脚本调用 Pig Latin 脚本

我有一个关于 PIG Latin 的问题有什么方法可以从另一个猪脚本中调用某个猪脚本吗我知道可以运行用户定义的函数 UDF 例如 REGISTER myudfs jar A LOAD student data AS name chara

Hadoop userdefinedfunctions apachepig

Pig、Cassandra 和 DataStax 拆分控制

我一直在使用 Pig 和我的 Cassandra 数据来完成各种令人惊奇的分组壮举而这些壮举几乎不可能用命令式的方式编写我正在使用 DataStax 的 Hadoop 和 Cassandra 集成我不得不说它令人印象深刻向那些家伙致

Hadoop cassandra apachepig datastaxenterprise datastax

在 Pig 中提取 CSV 文件的第一行

我有几个 CSV 文件标题始终是文件中的第一行在 Pig 中将该行作为字符串从 CSV 文件中取出的最佳方法是什么不能使用 sed awk 等进行预处理我尝试使用常规 PigStorage 和 Piggybank CsvLoader

csv apachepig latin

在 Pig 中的 ToDate(unix) 中指定时区

在我的数据集中我有 Unix 时间戳中的日期我想将它们转换为 Apache Pig 中的日期时间为此我可以使用ToDate 功能如所描述here 不过我知道我的 Unix 时间戳是 GMT UTC 但是使用转换ToDate 将导致我当

datetime unix apachepig

左填充猪中的一根绳子

我想用 0 s 填充字符串数据类型字段有什么办法可以做到这一点吗我需要有固定长度 40 值提前致谢千里眼零的数量需要根据剩余字符串的长度动态生成所以我认为这在本地猪中是不可能的这在 UDF 中是很有可能的输入 txt 111

apachepig

Pig 相当于 SQL GREATEST / LEAST？

我试图找到相当于猪SQL 函数GREATEST and LEAST 这些函数是聚合 SQL 函数的标量等效项MAX and MIN 分别本质上我希望能够这样说 x LOAD file a b c csv USING PigStorage

apachepig

在生成语句中格式化日期

在 Pig 中我有一个语句基本上将日期附加到我生成的值中 Data FOREACH Input GENERATE CurrentTime FLATTEN group COUNT guid oas Cnt 输出给了我日期2013 05 2

apachepig

如何提高数据严重偏差的养猪工作的绩效？

我正在运行一个 Pig 脚本该脚本执行 GROUP BY 和嵌套 FOREACH 由于一两个减少任务该脚本需要几个小时才能运行例如 B GROUP A BY fld1 fld2 parallel 50 C FOREACH B U A

apachepig

如何从 PIG 中生成的包（其大小可能会有所不同）中提取第一个元组？

我正在生成一个信息包其大小包内元组的数量可能会有所不同由此我想动态提取第一个元素我该怎么做呢使用DataFu UDF FirstTupleFromBag http datafu incubator apache org do

Hadoop apachepig

Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch

Hadoop apachepig

如何使用apache pig在hadoop集群上加载文件？

我有一个pig脚本需要从本地hadoop集群加载文件我可以使用 hadoop 命令列出文件 hadoop fs ls repo mydata 但是当我尝试在 Pig 脚本中加载文件时它失败了加载语句是这样的 in LOAD repo

Hadoop apachepig

Pig 脚本：加入多个文件

我正在读取一个大文件超过十亿条记录并将其与其他三个文件连接我想知道是否可以使该过程更有效以避免在大表上进行多次读取小表可能不适合记忆 A join smalltable1 by f1 f2 RIGHT OUTER massive

join apachepig Bigdata

Cygwin 和 Apache Pig - 令人困惑的伪 grunt>

我正在尝试在运行 Vista 操作系统的 Windows PC 上安装 Apache Pig 以便将其用作学习工具我不打算在这台机器上使用 Pig 进行任何严肃的数据处理单节点单 JVM x local设置是我想要的我有 Windo

Cygwin apachepig

Pig：使用外部模式文件加载数据文件

我有一个数据文件和相应的架构文件存储在不同的位置我想使用架构文件中的架构加载数据我尝试使用 A LOAD

load schema gruntjs apachepig

Pig 条件运算符

考虑下面的关系 test LOAD input USING PigStorage as a chararray b chararray 有没有办法达到以下效果 if b 1 a abc else if b 2 a xyz else reta

apachepig

在 Pig 中将一个元组拆分为多个元组

我喜欢从单个元组生成多个元组我的意思是我有包含以下数据的文件 gt gt cat data ID ColumnName1 Value1 ColumnName2 Value2 所以我通过以下命令加载它 grunt gt gt A load

Hadoop apachepig