猪参考

2024-05-12

我正在学习 Hadoop Pig，并且我总是坚持引用元素。请查找下面的示例。

groupwordcount: {group: chararray,words: {(bag_of_tokenTuples_from_line::token: chararray)}}

如果我们有嵌套的元组和包，有人可以解释一下如何引用元素吗？

任何有助于更好地理解嵌套引用的链接都会有很大帮助。

我们来做一个简单的演示来理解这个问题。

假设文件“a.txt”存储在 HDFS 的“/tmp/a.txt”文件夹中

A = LOAD '/tmp/a.txt' 使用 PigStorage(',') AS (name:chararray,term:chararray,gpa:float);

Dump A;

（约翰，佛罗里达州，3.9）

（约翰，佛罗里达州，3.7）

（约翰，sp，4.0）

（约翰，SM，3.8）

（玛丽，佛罗里达州，3.8）

（玛丽，佛罗里达州，3.9）

（玛丽，sp，4.0）

（玛丽，SM，4.0）

现在让我们根据一些参数（例如名称和术语）按此别名“A”进行分组

B = A 组 BY（名称，术语）；

dump B;

((约翰,fl),{(约翰,fl,3.7),(约翰,fl,3.9)})

((约翰,sm),{(约翰,sm,3.8)})

((约翰,sp),{(约翰,sp,4.0)})

((玛丽,佛罗里达州),{(玛丽,佛罗里达州,3.9),(玛丽,佛罗里达州,3.8)})

((玛丽,sm),{(玛丽,sm,4.0)})

((玛丽,sp),{(玛丽,sp,4.0)})

描述B；

B: {组: (名称: chararray,术语: chararray),A: {(名称: chararray,术语: chararray,gpa: float)}}

现在它已成为您提出的问题陈述。让我向您演示如何访问组元组的元素或元组的元素或两者

C = foreach B 生成group.name,group.term,A.name,A.term,A.gpa;

dump C;

(约翰,fl,{(约翰),(约翰)},{(fl),(fl)},{(3.7),(3.9)})

(约翰,sm,{(约翰)},{(sm)},{(3.8)})

(约翰,sp,{(约翰)},{(sp)},{(4.0)})

(玛丽,fl,{(玛丽),(玛丽)},{(fl),(fl)},{(3.9),(3.8)})

（玛丽，sm，{（玛丽）}，{（sm）}，{（4.0）}）

（玛丽，sp，{（玛丽）}，{（sp）}，{（4.0）}）

所以我们通过这种方式访问所有元素。

希望这有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

猪参考的相关文章

如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输

随机推荐

将指针转换为浮点数？

我有一个unsigned char 通常这指向一块数据但在某些情况下指针就是数据即铸造一个int的价值unsigned char 指针 unsigned char intData unsigned char myInteger 反
思考狮身人面像和控制台

我在 webfaction 上思考 sphinx 时遇到问题当我在 osx 上本地执行时没有问题 I search gt gt ThinkingSphinx 搜索雷蒙德我的回应是这样的 gt 有任何想法吗 thx sg 如果你还没有
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
如何在maven中使用不同的JAR进行编译和测试？

我根据 javaee api 编译我的程序但对于 Junit 测试我必须使用 glassfish javaee jar 等特定实现来避免类似错误java lang ClassFormatError 类文件 javax persisten
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
从本地 html/javascript 网站插入 mySQL 数据库

我正在尝试做什么我的程序的目的是插入数据local HTML JS网站变成online 非本地 mySQL数据库到目前为止我尝试过的我试图用来实现此目的的原始方法是让我的本地网站使用 javascript 通过在线发布数据PHP文件
pip install django_compressor 时命令 cl.exe 失败

我发布此消息是因为我遇到了这个问题并且已经尝试解决这个问题好几天了但未能成功当我尝试安装 django compressor pip install django compressor 时我遇到以下错误请参阅附件我在网上搜索解决
将 VS2015 中的 ASP.NET Identity 中的 User Id 类型更改为 int

默认情况下 VS 2015 中的 ASP NET Identity 使用字符串作为 AspNet 表的主键我想使用 int 类型的 id 来代替经过一些研究后发现框架开箱即用地支持不同类型的 ID 在下面的答案中我将展示要实现这一目
MVC 6通过Nuget添加后引用Jquery

我创建了一个新的 MVC 6 项目空模板通过 NuGet 添加了 JQuery 那么如何在 Layout 文件中或您想要使用它的任何地方引用它我没有包含 Jquery 的脚本文件夹 HERE
如何使用 JavaScript 计算 Hyperledger Fabric 中当前区块的区块哈希值？

我看到已经有为 Java SDK 创建的实用程序 https gerrit hyperledger org r c 9635 2 src main java org hyperledger fabric sdk helper ChainUt
在 Laravel 中使用块或游标优化代码

我有Company型号和Contact我的模型中定义的Laravel 5 4应用程序中两者具有多对多的关系因此例如联系人模型具有 public function company return this gt belongsToMany
NodeJS 路由器负载太大

我在 Nodejs 应用程序中创建休息端点如下所示在我的 server js 中我有以下代码 var express require express var app express app use express json limit
PreferredInterfaceOrientationForPresentation 必须返回受支持的界面方向 (iOS 6)

我的应用程序窗口的根视图控制器是 UINavigationController 的子类我已将此代码添加到类中 BOOL shouldAutorotate return self topViewController shouldAutoro
不要将连续匹配的上下文与 grep 合并

如果我跑grep C 1 match在以下文件上 a b match1 c d e match2 f match3 g 我得到以下输出 b match1 c e match2 f match3 g 正如您所看到的由于连续匹配 match2
如何等待，直到我从 Angular 7 中的后端 Spring Boot API 得到响应

我想使用 http post 方法的结果从一条路线导航到另一条路线但导航是在没有 http post 响应的情况下发生的当我调试代码时响应越来越晚我怎样才能解决这个问题有什么办法可以等待执行直到后端返回响应吗当我单击按钮时将执
使用 firebase 按最新消息对聊天列表进行排序

我不知道为什么我陷入了一个问题chatList不按最后一条消息时间或最新消息排序我尝试过存储timestamp在数据库中和订单子依据时间戳但它仍然不起作用不起作用意味着列表不会在每条消息后排序并继续将列表显示为在第一条消息后排序看
Java 中 static 关键字如何工作？

我正在阅读Java教程 http docs oracle com javase tutorial index html从一开始我就有一个问题static字段或变量上的关键字作为Java said here http docs oracle
更新查询增量字段加上 1 codeigniter 函数 [重复]

这个问题在这里已经有答案了我想在 codeigniter 项目中将字段值增加到当前值加 1 所以我做了一个功能但它不起作用我的职能是 function increse field by 1 table name fieldToInc
如何使用自定义布局跳转到 UICollectionView 中的任何 Cell？

我的水平 UICollectionView 中有 40 个单元格和一个按钮当我点击按钮时我可以从 5 号单元格跳转到 10 号单元格但是一旦我想要转到另一个单元格例如从 5 到 25 它不起作用而是变为 0 code func s
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray

猪参考

猪参考 的相关文章

随机推荐

热门标签

猪参考的相关文章