Pig默认JsonLoader架构问题

2023-12-03

我有以下需要使用 Pig 解析的数据

Data

{
    "Name": "BBQ Chicken",
    "Sizes": [
        { "Size": "Large", "Price": 14.99 },
        { "Size": "Medium", "Price": 12.99 }
    ],
    "Toppings": [ "Barbecue Sauce", "Chicken", "Cheese" ]
}

我能够定义架构Name and Sizes但我无法得到Toppings在职的。在这里寻求一些帮助。

Script

data = LOAD '/user/hue/data/nested_json_pizza_sample_data.json'
       USING JsonLoader('Name:chararray,
                         Sizes:bag{tuple(Size:chararray, Price:float)},
                         Toppings:tuple(a:chararray)');
DUMP data;

Output

如下所示，Topping 的数据没有被解析。

(BBQ Chicken,{(Large,14.99),(Medium,12.99)},)
(Hawaiian,{(Large,12.99),(Medium,10.99)},)
(Vegetable,{(Large,12.99),(Medium,10.99)},)
(Pepperoni,{(Large,12.99),(Medium,10.99),(Small,7.49)},)
(Cheese,{(Large,10.99),(Medium,9.99),(Small,5.49)},)
data: {Name: chararray,Sizes: {(Size: chararray,Price: float)},Toppings: (a: chararray)}

这里有两个选择：如果数组中的项目数未知。

Toppings:{t:(i:chararray)}

或者如果元素的数量始终相同。

Toppings: (i: chararray, j: chararray, k: chararray)

会给你输出：

(BBQ Chicken,{(Large,14.99),(Medium,12.99)},)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachepig

Pig默认JsonLoader架构问题的相关文章

HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制

随机推荐

从 VS2008 升级到 VS2010 后，Web 安装项目删除文件

我有一个使用 VS2008 构建的 Web 设置项目我已经将我的解决方案转换为 VS2010 现在当我构建新的安装程序并从 MSI 运行安装时它安装得很好然后在最后一步删除刚刚安装的所有文件我已将RemovePreviousVer
如何使用inst/extdata中的文件？ R 包检查阻止在 R 3.6 中使用 system.file()

我正在编写 R 包并尝试使用外部文件我把它放在inst extdata并使用system file extdata file csv package mypackage 在我的函数中加载文件官方手册只描述了这种获取数据的方式inst e
Spring应用程序似乎没有持久化数据

我正在尝试将一些内容写入我的数据库但尽管它报告成功完成请求但它不起作用成功后一切似乎都工作正常我的控制器正确地重定向了我 Debug DEBUG a d p payment PaymentServiceImpl Requesti
如何让 slickgrid div 根据表格大小调整大小

我希望我们有一些熟悉 slickGrid 的用户也能看到 StackOverflow 如何使用它我有一个包含 slickGrid 的 HTML 如下所示 div style width 600px margin 25px 0 0 0 di
领域数据同步不一致

我遇到一个问题每次执行相同的查询时 Realm 有时会返回不同的数据目前我正在使用 SyncAdapter 进行上传我们的想法是尝试实现离线模式因此当用户创建一个项目时它会被添加到领域数据库中我通过获取 maxId 并向其添加
实时 Admob 广告突然停止在我的应用中显示

6 月份 Admob 广告效果非常好 AdMob 向我发送了一封包含验证 PIN 码的信件以验证我的身份和付款详细信息七月初左右几乎所有实时广告都停止在我的应用程序中显示我仍然发出相同数量的请求但展示次数太低我已降至每天 0 0
将 Pandas DataFrame 转换为 JSON

我将数据存储在 pandas dataframe 中我想将 tat 转换为 JSON 格式可以使用以下代码复制示例数据 data Product A B A Zone E A A N E A start 08 00 00 09 00 0
使用 Carthage 构建时如何选择 Swift 工具链

我正在创建一个 iOS 应用程序并使用 Carthage 来构建外部库由于我目前使用的库都是 Swift 2 和 Swift 3 所以我有点紧张因此我希望拥有一个 Swift 2 分支和一个 Swift 3 分支进行开发然后在库全部
UIPopoverController 太大而 UIPickerView 太小

我有一个UIPickerView显示在a内UIPopoverController 尺寸UIPickerView are 320x216 由于某种原因 UIPickerView似乎是适当高度的 3 5 并且UIPopoverControlle
如何在 R 中对特定范围内的函数求和？

这里有三列 indx vehID LocalY 1 2 35 381 2 2 39 381 3 2 43 381 4 2 47 38 5 2 51 381 6 2 55 381 7 2 59 381 8 2 63 379 9 2 67 38
使用 ...spread，但 redux 仍然会抛出有关状态突变的警告

Redux 在调度时抛出警告 Error A state mutation was detected inside a dispatch in the path roundHistory 2 tickets Take a look at t
仅当外部文件存在时才安装

我想指示 Inno Setup 仅在某个外部文件存在时才安装该文件 Like so Source d sources SomeDLL dll DestDir app Flags external regserver uninsneverun
此操作无法完成。再试一次 (-22421)

我正在尝试上传Apple TV应用程序到应用程序商店进行测试但我遇到了问题此操作无法完成再试一次 22421 如下图所示那我能做什么呢发生这种情况是因为 Apple 的服务器可能无法正常工作请稍候或下次尝试它最终肯定会起作用
Flutter：Firebase Realtime 从对象列表中删除对象

我正在咨询数据库中注册的所有俱乐部对于每个俱乐部我都会将其添加到对象列表中当该人删除俱乐部时会从数据库中删除俱乐部但在项目列表中未删除我尝试执行以下操作我的 NotClub Player dart 类 FIREBASE CLU
如何在 NetBeans 7.0 中关闭左括号上的方法自动完成功能？

我想我打字很快因为如果我输入字符 ArrayList myArray myArray size NetBeans 自动完成将以下内容放入我的编辑器中 ArrayList myArray myArray add someVar 为什么因为
Ruby on Rails 中的多态性和形式

最近我充满了疑问但感谢这个很棒的社区我学到了很多东西我之前得到了有关多态关联所需的所有帮助现在我有一个关于使用多态模型处理表单的问题例如我有 Phoneable 和 User 因此当我创建表单来注册用户时我希望能够为用户分配一
“new Image()”和“new Option()”等构造函数的记录在哪里？

不是在 Mozilla 而是 for image 谢谢Rickard用于识别 http www w3 org html wg drafts html CR embedded content 0 html dom image它提供了 DOM
如何使用全局 CreateTheme 在 Material UI 5 的 TextField 中设置“禁用”类的样式？

我想对 TextFiled 组件进行不同的样式设置一旦禁用 true 就会概述变体在 Material ui v 4 中捕获它的方式在 Material ui v 5 中不起作用我也无法通过谷歌搜索如何自定义禁用版本的解决方案下面您
无法在 Google 应用引擎中使用 TfidfVectorizer

我正在 Google App Engine 中编写一个 python 程序该程序使用 sklearn 中的 TfidfVectorizer 计算 tf idf 我添加了 sklearn 库并导入为 from sklearn feature
Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch

Pig默认JsonLoader架构问题

Pig默认JsonLoader架构问题 的相关文章

随机推荐

热门标签

Pig默认JsonLoader架构问题的相关文章