像袋子一样压平元组

2024-06-21

我的数据集如下所示:

( A, (1,2) )
( B, (2,9) )

我想“展平”Pig 中的元组,基本上为内部元组中找到的每个值重复每个记录,这样预期的输出是:

( A, 1 )
( A, 2 )
( B, 2 ) 
( B, 9 )

我知道当元组 (1,2) 和 (2,9) 是袋时这是可能的。


你的洞察力很好;可以通过转换包中的元组来实现。我们想要的模式是:{a: chararray,{(chararray)}} 例如:(A,{(1),(2)})

这是您问题的解决方案:

A = LOAD 'data.txt' AS (a:chararray,b:(b1:chararray,b2:chararray));
B = FOREACH A GENERATE a, TOBAG(b.b1,b.b2);
C = FOREACH B GENERATE a, FLATTEN($1);

神奇的部分是 TOBAG 运算符。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

像袋子一样压平元组 的相关文章

  • 在蜂巢中出现错误

    当我连接到 ireport 时 如果说在 hive shell 中显示表 则会出现此错误 元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
  • 使用 Pig 从数据中删除单引号

    这就是我的数据的样子 10 ACCOUNTING NEW YORK 20 RESEARCH DALLAS 30 SALES CHICAGO 40 OPERATIONS BOSTON 我想删除 and 使用 Pig 脚本从这些数据中获取 我希
  • 使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

    使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦 一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
  • 覆盖hadoop中的log4j.properties

    如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志 而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
  • 无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

    我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
  • 如何用snappy解压hadoop的reduce输出文件尾?

    我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件 归约输出文件以某种
  • PIG:从分组包中取出所有元组

    我使用 PIG 从元组生成组 如下所示 a1 b1 a1 b2 a1 b3 gt a1 b1 b2 b3 这很容易并且有效 但我的问题是得到以下内容 从获得的组中 我想生成组包中所有元组的集合 a1 b1 b2 b3 gt b1 b2 b1
  • 匿名类上的 NotSerializedException

    我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
  • Hadoop 作业:任务在 601 秒内无法报告状态

    在伪节点上运行 hadoop 作业时 任务失败并被杀死 错误 任务尝试 在 601 秒内无法报告状态 但同一个程序正在通过 Eclipse 运行 本地作业 任务 大约有 25K 个关键字 输出将是所有可能的组合 一次两个 即大约 25K 2
  • Hadoop fs 查找块大小?

    在 Hadoop fs 中如何查找特定文件的块大小 我主要对命令行感兴趣 例如 hadoop fs hdfs fs1 data 但看起来这并不存在 有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量 但是 要
  • Hadoop 减速器数量配置选项优先级

    以下3个设置reduce数量的选项的优先级是什么 换句话说 如果三者都设置了 会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
  • 如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

    Overview 我们希望使用 log4j 记录 Spark 作业活动 并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
  • 使用 Hive 计算文本变量的单词频率

    我有一个变量 每一行都是一个句子 例子 Row1 Hey how are you Rwo2 Hey Who is there 我希望输出是按单词分组的计数 Example Hey 2 How 1 are 1 我正在使用 split a bi
  • Spark-submit,客户端无法通过以下方式进行身份验证:[TOKEN,KERBEROS];

    我使用 kerberos 设置了 hadoop 集群 但是当我运行 Spark Submit 时 它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
  • 像袋子一样压平元组

    我的数据集如下所示 A 1 2 B 2 9 我想 展平 Pig 中的元组 基本上为内部元组中找到的每个值重复每个记录 这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的 你的洞察力很好 可以
  • S3并行读写性能?

    考虑 Spark 或任何其他 Hadoop 框架 从 S3 读取大型 例如 1 TB 文件的场景 多个spark执行器如何从S3并行读取非常大的文件 在 HDFS 中 这个非常大的文件将分布在多个节点上 每个节点都有一个数据块 在对象存储中
  • 如何将.txt文件转换为Hadoop的序列文件格式

    有效利用 Map Reduce 作业Hadoop http hadoop apache org 我需要将数据存储在hadoop的序列文件格式 http hadoop apache org common docs current api or
  • 名称节点与辅助名称节点

    Hadoop 具有一致性和分区容忍性 即它属于 CAP 理论的 CP 类别 Hadoop不可用 因为所有节点都依赖于名称节点 如果名称节点崩溃 集群就会崩溃 但考虑到 HDFS 集群有一个辅助名称节点 为什么我们不能称 hadoop 为可用
  • 如何让 HDFS 在 docker swarm 中工作

    我很难让我的 HDFS 设置在 docker swarm 中工作 为了理解这个问题 我将我的设置减少到最低限度 1台物理机 1 个名称节点 1个数据节点 此设置在 docker compose 中运行良好 但在使用相同的 compose 文
  • 在Python中扁平化复杂的目录结构

    我想将文件从复杂的目录结构移动到一个地方 例如我有这么深的层次结构 foo foo2 1 jpg 2 jpg 我希望它是 1 jpg 2 jpg 我当前的解决方案 def move destination for removal os pa

随机推荐

  • JS - 使用变量设置 Div 背景颜色

    基本上 我的一个朋友正在练习 JS 他想到了一个测试基本站点的想法 所以我说我们将进行一场比赛来完成它 此时我们都遇到了错误 我们在 JS 中创建了一种颜色 但是当我们需要输出时它就不起作用了 我有这个 document getElemen
  • iOS 应用程序测试。应用程序安装失败。找不到代码签名[关闭]

    Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 我尝试在多个 iOS 设备上安装我的应用程序 但这件事不让我这么做 我想知道 问题是什么以及我应该如何解决它 就我而言
  • 输入文本中固定下划线

    我试图修复所有输入文本类型中的下划线 但没有成功 Example My code input width 100 background color fcfcfc border 0 padding 10px div class col lg
  • Powershell如何查询COM对象上的接口

    我使用 Powershell 创建了一个 COM 对象 obj new object com MyLib MyObj 然后我需要查询接口 MyLib MyInterface 那个对象上 但我不知道如何使用 PowerShell 来做到这一点
  • 如何使用python 3.9的typing.Annotation MaxLen?

    我知道有这种新的打字格式Annotated您可以在其中为函数的入口变量指定一些元数据 来自文档 https docs python org 3 library typing html typing Annotated 您可以指定传入列表的最
  • 在父视图之外对子视图进行动画处理

    我试图在其父视图之外对视图进行动画处理 当我这样做时 子视图无法在其父视图之外进行动画处理 我通过使用解决了这个问题setClipChildren false 它起作用了 当视图动画时up 当我为视图设置动画时down图像仍然隐藏 这是有效
  • 如何针对 Google Chrome 调试 Silverlight

    有谁知道如何从 Visual Studio 调试在 Google Chrome 中运行的 Silverlight 2 应用程序 即使在确定之后Chrome是调试浏览器 https stackoverflow com questions 59
  • Angular 2 验证状态

    我使用 Angular 2 实现了一个登录页面 登录后 我从服务器获取 jsonwebtoken userId userRole userName 我将此信息存储在本地存储中 以便我可以随时访问它并在用户刷新页面时保持登录状态 AuthSe
  • FireFox:使用画布对象的图像 base64 数据不起作用

    这是我编写的用于调整图像宽高比大小的代码 它可以在 chrome 上运行 但不能在 firefox 上显示 有人知道出了什么问题吗 var image new Image image src data image load function
  • SimpleCursorAdapter 的替代品?

    我正在查看 Android 开发者网站上的记事本教程 并注意到SimpleCursorAdaptor已弃用 新的构造函数 public SimpleCursorAdapter Context context int layout Curso
  • 如何在 Google App Engine 中验证传入电子邮件地址的发件人?

    我正在尝试在 Google App Engine 的 Python SDK 中编写一个基于电子邮件的应用程序 我注意到谷歌允许您通过其 API 接收电子邮件 http code google com appengine docs pytho
  • 如何修改秤包生成的标签?

    所以我正在制作金字塔可视化 我在用着scale y continuous labels scales label number si accuracy 0 1 来生产标签 但是 我想去掉图表女性部分的负号 我认为保留 SI 后缀但删除负号的
  • 如何使用 Laravel Eloquent 创建多个Where子句查询?

    我正在使用 Laravel Eloquent 查询构建器 并且我有一个查询 我想要一个WHERE多个条件的子句 它可以工作 但并不优雅 Example results User where this 1 gt where that 1 gt
  • 在 matplotlib 中向颜色条添加标记或线条

    我有以下几行代码来生成热图 pcolormesh import matplotlib pyplot as plt import numpy as np vals np linspace np pi 2 np pi 2 101 x y np
  • ArrayBuffer 到 String、String 到 ArrayBuffer 方法

    这个问题过去已经得到了答案 但我肯定地说它仍然没有答案 一般而言 几乎都有关于 ArrayBuffers 的文档 更不用说特定应用程序了 我已经研究了好几天了 没有任何结果 本质上 我需要尝试转换从文件读取器获得的 ArrayBuffer
  • 如何用 clang 替换 llvm-ld ?

    Summary llvm ld已从LLVM 3 2 版本 http llvm org releases 3 2 docs ReleaseNotes html 我试图弄清楚如何在我的构建系统中使用 clang 请注意 我在编写时找到了自己问题
  • 无法从 gi.repository 导入 Webkit

    当我尝试导入时Webkit from gi repository 它给出了ImportError from gi repository import Webkit ERROR root Could not find any typelib
  • 如何在没有 Composer 的情况下安装 mpdf 7?

    我目前正在使用 mpdf 6 1 我想切换到 7 但我找不到安装它的方法without作曲家 是否有完整的软件包可供我在本地主机上下载 解压和测试 嗯 我花了几天时间寻找方法 终于找到了 你可以在这里下载完整的mpdf包site https
  • Xcode 中的搜索结果图标?

    我正在寻找有关 Xcode 搜索结果中显示的图标的信息 我认为有些图标的含义是显而易见的 M 方法 C 类 S 结构 Pr 协议等 但其他的则不那么明显 您在 Xcode 帮助列表中如何称呼这些图标 有描述这些图标的 传说 吗 我尝试过搜索
  • 像袋子一样压平元组

    我的数据集如下所示 A 1 2 B 2 9 我想 展平 Pig 中的元组 基本上为内部元组中找到的每个值重复每个记录 这样预期的输出是 A 1 A 2 B 2 B 9 我知道当元组 1 2 和 2 9 是袋时这是可能的 你的洞察力很好 可以