Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Hadoop 中将多个文件合并为一个
我将多个小文件放入我的输入目录中 我想将它们合并为一个文件 而不使用本地文件系统或编写 mapreds 有没有办法使用 hadoof fs 命令或 Pig 来做到这一点 Thanks 为了将所有内容保留在网格上 请使用带有单个减速器和 ca
Hadoop
apachepig
Hadoop Pig:传递命令行参数
有没有办法做到这一点 例如 传递要处理的文件的名称等 这出现在另一个问题 https stackoverflow com questions 3515481 pig latin load multiple files from a date
Hadoop
apachepig
在 Pig 中删除单列
我正在按大约 20 个 ID 的列表过滤表 现在我的代码如下所示 A LOAD ids txt USING PigStorage B LOAD massive table USING PigStorage C JOIN A BY 0 B B
Hadoop
MapReduce
apachepig
是否可以将参数值传递给 UDF 构造函数?
我编写了一个带有构造函数参数的 UDF 我已经成功初始化并使用它grunt as grunt gt register mylib jar grunt gt define Function com company pig udf MyFunc
apachepig
从其他 Pig 脚本调用 Pig Latin 脚本
我有一个关于 PIG Latin 的问题 有什么方法可以从另一个猪脚本中调用某个猪脚本吗 我知道可以运行用户定义的函数 UDF 例如 REGISTER myudfs jar A LOAD student data AS name chara
Hadoop
userdefinedfunctions
apachepig
Pig、Cassandra 和 DataStax 拆分控制
我一直在使用 Pig 和我的 Cassandra 数据来完成各种令人惊奇的分组壮举 而这些壮举几乎不可能用命令式的方式编写 我正在使用 DataStax 的 Hadoop 和 Cassandra 集成 我不得不说它令人印象深刻 向那些家伙致
Hadoop
cassandra
apachepig
datastaxenterprise
datastax
在 Pig 中提取 CSV 文件的第一行
我有几个 CSV 文件 标题始终是文件中的第一行 在 Pig 中将该行作为字符串从 CSV 文件中取出的最佳方法是什么 不能使用 sed awk 等进行预处理 我尝试使用常规 PigStorage 和 Piggybank CsvLoader
csv
apachepig
latin
在 Pig 中的 ToDate(unix) 中指定时区
在我的数据集中 我有 Unix 时间戳中的日期 我想将它们转换为 Apache Pig 中的日期时间 为此我可以使用ToDate 功能如所描述here 不过我知道我的 Unix 时间戳是 GMT UTC 但是使用转换ToDate 将导致我当
datetime
unix
apachepig
左填充猪中的一根绳子
我想用 0 s 填充字符串数据类型字段 有什么办法可以做到这一点吗 我需要有固定长度 40 值 提前致谢 千里眼 零的数量需要根据剩余字符串的长度动态生成 所以我认为这在本地猪中是不可能的 这在 UDF 中是很有可能的 输入 txt 111
apachepig
Pig 相当于 SQL GREATEST / LEAST?
我试图找到相当于猪SQL 函数GREATEST and LEAST 这些函数是聚合 SQL 函数的标量等效项MAX and MIN 分别 本质上 我希望能够这样说 x LOAD file a b c csv USING PigStorage
apachepig
在生成语句中格式化日期
在 Pig 中 我有一个语句 基本上将日期附加到我生成的值中 Data FOREACH Input GENERATE CurrentTime FLATTEN group COUNT guid oas Cnt 输出给了我日期2013 05 2
apachepig
如何提高数据严重偏差的养猪工作的绩效?
我正在运行一个 Pig 脚本 该脚本执行 GROUP BY 和嵌套 FOREACH 由于一两个减少任务 该脚本需要几个小时才能运行 例如 B GROUP A BY fld1 fld2 parallel 50 C FOREACH B U A
apachepig
如何从 PIG 中生成的包(其大小可能会有所不同)中提取第一个元组?
我正在生成一个信息 包 其大小 包内元组的数量 可能会有所不同 由此 我想动态提取第一个元素 我该怎么做呢 使用DataFu UDF FirstTupleFromBag http datafu incubator apache org do
Hadoop
apachepig
Pig默认JsonLoader架构问题
我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch
Hadoop
apachepig
如何使用apache pig在hadoop集群上加载文件?
我有一个pig脚本 需要从本地hadoop集群加载文件 我可以使用 hadoop 命令列出文件 hadoop fs ls repo mydata 但是当我尝试在 Pig 脚本中加载文件时 它失败了 加载语句是这样的 in LOAD repo
Hadoop
apachepig
Pig 脚本:加入多个文件
我正在读取一个大文件 超过十亿条记录 并将其与其他三个文件连接 我想知道是否可以使该过程更有效 以避免在大表上进行多次读取 小表可能不适合记忆 A join smalltable1 by f1 f2 RIGHT OUTER massive
join
apachepig
Bigdata
Cygwin 和 Apache Pig - 令人困惑的伪 grunt>
我正在尝试在运行 Vista 操作系统的 Windows PC 上安装 Apache Pig 以便将其用作学习工具 我不打算在这台机器上使用 Pig 进行任何严肃的数据处理 单节点 单 JVM x local设置是我想要的 我有 Windo
Cygwin
apachepig
Pig:使用外部模式文件加载数据文件
我有一个数据文件和相应的架构文件存储在不同的位置 我想使用架构文件中的架构加载数据 我尝试使用 A LOAD
load
schema
gruntjs
apachepig
Pig 条件运算符
考虑下面的关系 test LOAD input USING PigStorage as a chararray b chararray 有没有办法达到以下效果 if b 1 a abc else if b 2 a xyz else reta
apachepig
在 Pig 中将一个元组拆分为多个元组
我喜欢从单个元组生成多个元组 我的意思是 我有包含以下数据的文件 gt gt cat data ID ColumnName1 Value1 ColumnName2 Value2 所以我通过以下命令加载它 grunt gt gt A load
Hadoop
apachepig
«
1
2
3
4
5
»