group by 之后的拉丁猪袋到元组

2024-03-13

我有以下带有架构的数据(t0: chararray,t1: int,t2: int)

(B,4,2)
(A,2,3)
(A,3,2)
(B,2,2)
(A,1,2)
(B,1,2)

我想生成以下结果（按 t0 分组，并按 t1 排序）

(A, ((1,2),(2,3),(3,2)))
(B, ((1,2),(2,2),(4,2)))

请注意，我只想要第二个组件中的元组，而不是包。请帮忙。

你应该能够这样做。

-- A: (t0: chararray,t1: int,t2: int)

B = GROUP A BY t0 ;
C = FOREACH B {
            -- Project out the first column of A.
            projected = FOREACH A GENERATE t1, t2 ;
            -- Now you can order the projection.
            ordered = ORDER projected BY t1 ;
    GENERATE group AS t0, ordered AS vals ;
}

您可以阅读有关嵌套的更多信息FOREACHs here http://pig.apache.org/docs/r0.10.0/basic.html#nestedblock.

注意/更新：看来当我最初回答这个问题时，我错过了询问者要求输出采用元组形式的部分。仅当您知道元组中字段的确切数量和位置时才应使用元组。否则，您的模式将不会被定义，它将被very很难进入田野。这是因为整个元组将被视为字节数组，因此您必须手动查找并cast http://pig.apache.org/docs/r0.12.1/basic.html#cast一切。

如果你必须这样做，你就不能在纯猪身上这样做。你必须使用某种UDF http://pig.apache.org/docs/r0.12.1/udf.html去做这个。我会推荐Python。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachepig

group by 之后的拉丁猪袋到元组的相关文章

Cygwin 和 Apache Pig - 令人困惑的伪 grunt>

我正在尝试在运行 Vista 操作系统的 Windows PC 上安装 Apache Pig 以便将其用作学习工具我不打算在这台机器上使用 Pig 进行任何严肃的数据处理单节点单 JVM x local设置是我想要的我有 Windo
Pig 脚本：加入多个文件

我正在读取一个大文件超过十亿条记录并将其与其他三个文件连接我想知道是否可以使该过程更有效以避免在大表上进行多次读取小表可能不适合记忆 A join smalltable1 by f1 f2 RIGHT OUTER massive
Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch
Pig 相当于 SQL GREATEST / LEAST？

我试图找到相当于猪SQL 函数GREATEST and LEAST 这些函数是聚合 SQL 函数的标量等效项MAX and MIN 分别本质上我希望能够这样说 x LOAD file a b c csv USING PigStorage
在 Pig 中提取 CSV 文件的第一行

我有几个 CSV 文件标题始终是文件中的第一行在 Pig 中将该行作为字符串从 CSV 文件中取出的最佳方法是什么不能使用 sed awk 等进行预处理我尝试使用常规 PigStorage 和 Piggybank CsvLoader
Hadoop Pig：传递命令行参数

有没有办法做到这一点例如传递要处理的文件的名称等这出现在另一个问题 https stackoverflow com questions 3515481 pig latin load multiple files from a date
对相关包进行排序

我有一个 Pig 脚本它生成了一个关系 A x chararray B y chararray z int 我想根据 B y 对 A 进行排序但是以下代码给了我错误语法错误 z 处或附近出现意外符号 output foreach A
无法构建 Piggybank -> /home/build/ivy/lib 不存在

嘿我按照这里的步骤操作 http wiki apache org pig PiggyBank http wiki apache org pig PiggyBank构建存钱罐罐子但我不断得到下面的输出我还从源代码构建了 pig 项目并
如何加载hive表中的多行列数据？具有换行符的列

我在 Excel 文件中有一个列不是最后一列其中包含跨越几行的数据列的某些单元格为空白有些单元格具有单行条目当保存为 CSV 文件或制表符分隔 txt 与 Excel 时所有多行数据和少数单行条目都会在双引号中生成所有空白字段
运行 HCatalog 时出错

A LOAD eventnew txt USING HCatalogLoader 2015 07 08 19 56 34 875 主要错误 org apache pig tools grunt Grunt 错误 1070 无法使用导入解析
Pig 和 Hive 之间的区别？为什么两者都有？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我的背景进入 Hadoop 世界已经 4 周了使用 Cloudera 的 Hadoop VM 涉足 Hive Pig 和 Hadoop 读过
Pig FILTER 返回我数不清的空袋子

我正在尝试计算数据集中有多少个值与过滤条件匹配但当过滤器不匹配任何条目时我遇到了问题我的专栏里有很多data结构但本例中只使用了三个 key 该集合的数据键不是唯一的 value 记录的浮点值 nominal value 代表标称
Apache Pig：无法运行我自己的pig.jar 和pig-withouthadoop.jar

我有一个运行 Hadoop 0 20 2 和 Pig 0 10 的集群我有兴趣向 Pig 的源代码添加一些日志并在集群上运行我自己的 Pig 版本我做了什么使用 ant 命令构建项目有pig jar和pig without had
使用 Pig 中的elephantbird 进行 Json 解析

我无法在 Pig 中解析以下数据这是 Twitter API 在获取某个用户的所有推文后返回的内容源数据我删除了一些数字以免无意中侵犯任何人的隐私 created at Sat Nov 01 23 15 45 0000 2014 i
group by 之后的拉丁猪袋到元组

我有以下带有架构的数据 t0 chararray t1 int t2 int B 4 2 A 2 3 A 3 2 B 2 2 A 1 2 B 1 2 我想生成以下结果按 t0 分组并按 t1 排序 A 1 2 2 3 3 2 B 1 2
处于咕噜模式的猪

我在windows中安装了cygwin hadoop和pig 配置看起来不错因为我可以在批处理和嵌入模式下运行 Pig 脚本当我尝试以 grunt 模式运行 pig 时发生了一些奇怪的事情让我解释我尝试运行一个简单的命令例如 g
使用 PIG 从 Hive 表解析嵌套 XML 字符串

我正在尝试使用 PIG 从 Hive 表中的字段而不是从 XML 文件中提取一些 XML 这是我读过的大多数示例的假设 XML 来自排列如下的表 ID XML string XML 字符串包含 n 行始终包含最多 10 个属性中的至少一个
Pig - 使用正则表达式解析字符串

我被困在 Pig 中的字符串解析上我查看了周围的文档regex extract and regex extract all并希望使用其中一项功能我有文件 logs test log cat logs test log user 2425
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
逃离 Pig 中的美元符号？

这在 0 9 2 中不是问题但在 0 10 中当我尝试访问地图中带有美元符号的键时我会遇到没有定义变量的错误具体来说 blah FOREACH meh GENERATE source json post id id AS post

随机推荐

Azure Bot 通道注册，通道部分为空

我在 Azure 门户上使用机器人通道注册服务时遇到问题创建服务后频道部分不会加载仅保留空白 Screenshot 有什么帮助吗经过多次测试我通过将Azure门户的语言和区域更改为英语美国解决了该问题
如何清除服务总线主题订阅的消息

只是想知道从服务总线主题的订阅中清除消息的最佳方法即使通过 Portal Powershell 或 C 假设我们有一个包含 4 个订阅的主题而我们只想清除其中一个订阅中的消息我有一种感觉唯一的方法可能是在 while 循环中阅读消息
节点：Socket io require.resolve 不是一个函数吗？

我很惊讶谷歌搜索没有给我任何结果无论如何这是我使用时的问题socket io 当我进一步检查时是来自 socket io index js 源文件第 28 行导致了问题 var clientSource read require
评估数学表达式

我正在寻找一种可用于评估数学表达式的算法我在 SO 上看到了一些类似的问题但答案是 C Delphi 或 python 特定的我需要用 C 语言编写算法我试图解决的问题是给定一个用户输入例如 3 2 x 1 x 我可以计算 x 的
D3DERR_INVALIDCALL 错误，TeamCity 生成器

我一直在尝试使用 TeamCity 4 5 来自动构建 XNA 项目但我遇到了一个小问题我的项目在 Visual Studio 2008 下可以正确编译但在使用 TeamCity 作为生成器进行编译时则无法正确编译配置文件使用 sl
有没有办法从 ios 中的 mp3 中提取嵌入的图像数据

我知道 mp3 有时包含专辑插图就我而言我正在处理播客文件 iOS 有没有办法从 mp3 文件中提取图像数据 MP3 包括播客通常具有嵌入的元数据包括艺术品获取嵌入元数据对于不在 iTunes 库中的 MP3 的最简单方法是通过
为什么Python的列表切片不会产生索引越界错误？ [复制]

这个问题在这里已经有答案了在玩数组切片时我注意到a index or a index 切片类型不会产生字符串的数组索引越界错误 str abcde print str 10 print str 10 产生输出 abcde 有人能解释一下为
在C#中，是否可以在不打开浏览器的情况下在后台打开URL？

我的代码需要通过 php 脚本向服务器提供一些信息基本上我想打电话www sitename com example php var1 1 var2 2 var3 3但我不想打开浏览器所以Process Start URL 行不通的由于
错误状态：BackgroundIsolateBinaryMessenger.instance 值在执行BackgroundIsolateBinaryMessenger.ensureInitialized 之前无效

static getMaxId SendPort sendPort async ApiService apiService ApiService var maxId await apiService getMId 1 sendPort se
ARKit / SpriteKit - 将 PixelBufferAttributes 设置为 SKVideoNode 或以另一种方式在视频中制作透明像素（色度键效果）

我的目标是使用以下方法在真实环境中呈现 2D 动画角色ARKit 动画角色是视频的一部分如下视频快照所示使用以下代码可以毫无问题地显示视频本身 func view view ARSKView nodeFor anchor ARAncho
如何在 PHP 中创建循环模板

我们可以在 C 中定义循环模板以缩短编码时间 define fo a b c for a b a lt c a 有没有办法在 PHP 中做同样的事情幸好没有有很多可怕的事情可以使 PHP 变得不可读但这不是其中之一 PHP 默认不使
Azure Cosmos 分页：FeedResponse.ContinuationToken 在下一个请求中不起作用

下面是我在 Azure Cosmos 中进行分页的代码在该函数中我返回 FeedResponse 的 ContinuationToken 获取第一页的第一个请求很好它返回继续令牌但是如果我在下一个请求中使用该令牌则 API 将返
delphi程序中的隐藏主菜单，使用Alt键自动显示

首先我要说的是我讨厌Windows Vista和Windows 7中的这个功能其次我想做它 Here https stackoverflow com questions 1218394 how can i toggle the ma
TypeScript 和 RegExp

打字稿说该物业 1 类型值不存在 pattern string flags string RegExp new pattern string flags string RegExp 该类型可以通过查看定义来解释lib d ts附带的打字
除了IEEE754之外还有其他常用的浮点格式吗？

我正在编写一个编组层来自动转换不同域之间的值当涉及浮点值时这可能意味着将值从一种浮点格式转换为另一种浮点格式然而似乎几乎每个现代系统都在使用 IEEE754 所以我想知道是否真的值得推广以允许其他格式或者只是管理不同 IEEE75
形式中的形式。表单控件可以继承吗？

我有两个组件 ParentComponent 和 ChildComponent 父组件 ts
UiAutomator -- 将小部件添加到主屏幕

我对 Google 的 uiautomator 有相当多的经验然而当谈到向手机主屏幕添加小部件时我似乎被难住了现在让我们保持简单并假设要添加小部件的屏幕是空的思考过程是打开应用程序抽屉 gt 单击小部件选项卡 gt 找到要添加的小
背景图像的全宽和全高

我正在为一个网站设置横幅横幅由图像和其顶部的一些文本组成代码如下 div class banner div p class banner text Line 1Line 2 p div 我需要的是图像覆盖屏幕的整个宽度即使屏幕比图像宽
Web 应用程序架构：1 个或 n 个 API

背景我正在考虑网络应用程序组织我将前端浏览器网站与后端 API 分开 2 个应用程序 2 个存储库 2 个托管 Front 几乎会调用 API 来完成所有事情因此如果我的 API 有两个独立的域服务例如学习上下文和预订上下文
group by 之后的拉丁猪袋到元组

我有以下带有架构的数据 t0 chararray t1 int t2 int B 4 2 A 2 3 A 3 2 B 2 2 A 1 2 B 1 2 我想生成以下结果按 t0 分组并按 t1 排序 A 1 2 2 3 3 2 B 1 2

group by 之后的拉丁猪袋到元组

group by 之后的拉丁猪袋到元组 的相关文章

随机推荐

热门标签

group by 之后的拉丁猪袋到元组的相关文章