在 Hive 中分解一行 XML 数据

2024-04-29

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中。我们正在尝试检索数据级别，并将其标准化或分解为单行进行处理（你知道，就像表格一样！）已经尝试过分解功能，但没有得到我们想要的。

示例 XML

<Reports>
<Report ID="1">
<Locations>
  <Location ID="20001">
    <LocationName>Irvine Animal Shelter</LocationName>
  </Location>   
  <Location ID="20002">
    <LocationName>Irvine City Hall</LocationName>
  </Location>   
  </Locations>
</Report>
<Report ID="2">
<Locations>
  <Location ID="10001">
    <LocationName>California Fish Grill</LocationName>
  </Location>   
  <Location ID="10002">
    <LocationName>Fukada</LocationName>
  </Location>   
  </Locations>
</Report>
</Reports>

QUERY 1

我们正在查询更高级别的 Report.Id，然后查询子级的 ID 和名称（位置/位置）。下面本质上为我们提供了所有可能组合的笛卡尔积（在本例中，是 8 行，而不是我们希望的 4 行。）

SELECT xpath_int(xml, '/Reports/Report/@ID') AS id, location_id, location_name 
FROM   xmlreports 
LATERAL VIEW explode(xpath(xml, '/Reports/Report/Locations/Location/@ID')) myTable1 AS location_id 
LATERAL VIEW explode(xpath(xml, '/Reports/Report/Locations/Location/LocationName/text()')) myTable2 AS location_name;

QUERY 2

尝试分组为一个结构然后分解，但这返回两行和两个数组。

SELECT id, loc.col1, loc.col2
FROM (
SELECT xpath_int(xml, '/Reports/Report/@ID') AS id, 
       array(struct(xpath(xml, '/Reports/Report/Locations/Location/@ID'), xpath(xml,     '/Reports/Report/Locations/Location/LocationName/text()'))) As foo
FROM   xmlreports) x
LATERAL VIEW explode(foo) exploded_table as loc;

RESULTS

1   ["20001","20002"]       ["Irvine Animal Shelter","Irvine City Hall"]
2   ["10001","10002"]       ["California Fish Grill","Irvine Spectrum"]

我们想要的是

1   "20001" "Irvine Animal Shelter"
1   "20002" "Irvine City Hall"
2   "10001" "California Fish Grill"
2   "10002" "Irvine Spectrum"

似乎是一件很常见的事情，但找不到任何例子。任何帮助是极大的赞赏。

我看到有两种方法可以解决这个问题。

创建自定义 UDF，它将解析一个 XML 元素并返回您需要的数组。之后爆炸阵。
使用子选择。

我使用子选择实现了解决方案 2。即使在使用子选择时，Hive 也“足够智能”，只为此创建一个映射缩减作业，所以我认为您不会遇到性能问题。

SELECT 
 l2.key,
 l2.rid,
 l2.location_id,
 location_name
FROM (
 SELECT 
  l1.key as key,  
  l1.rid as rid, 
  location_id as location_id,
  l1.xml as xml
 FROM (
   SELECT key, xml, rid
   FROM xmlreports
   LATERAL VIEW explode(xpath(xml, '/Reports/Report/@ID')) rids as rid
 ) l1
 LATERAL VIEW explode(xpath(l1.xml, concat('/Reports/Report[@ID = ',l1.rid, ']/Locations/Location/@ID'))) locids as location_id
) l2
LATERAL VIEW explode(xpath(l2.xml, concat('/Reports/Report[@ID = ',l2.rid, ']/Locations/Location[@ID = ', l2.location_id ,' ]/LocationName/text()'))) locnames as location_name;

对您提供的 XML 文件运行此查询后，我得到了您正在搜索的结果

1   1   20001   Irvine Animal Shelter
1   1   20002   Irvine City Hall
1   2   10001   California Fish Grill
1   2   10002   Fukada

希望这能解决您的问题。

问候，恐龙

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xpath

Hadoop

hive

在 Hive 中分解一行 XML 数据的相关文章

为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
在 VBScript 中导航 XML 节点（对于 Dummy）

我正在尝试编写一个脚本来为我操作 xml 文件中的一些数据我对 VBScript 还很陌生但有 VB NET 和 VBA 背景所以我觉得我知道自己在做什么我认为可能有更好的方法来导航文件而不是对每一行进行大量调用 InStr 或类
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
Excel - 使用 FILTERXML 从字符串中提取子字符串

Background 最近我一直在尝试更熟悉将分隔字符串更改为 XML 以使用 Excel 进行解析的概念FILTERXML https support microsoft com en us office filterxml funct
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
使用 PHP simpleXML 查找一个我知道名称但不知道其所在位置的节点

如果我知道要查找的节点的名称但我可能不一定知道该节点的路径我需要在 PHP 中查询 XML 字符串我想我可以使用 xpath 做到这一点但我无法弄清楚如何设置相对路径来查看文档中的任何位置有人可以指出我正确的方向吗我目前正在尝试
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
simplexml 和 xpath，读取同级

我有以下 XML 文件
PHP DOMDocument 中 XML 内 HTML 表的 Xpath 查询

我有一个具有以下树结构的 XML 文件
jQuery - xpath 查找？

如果您在 xml 中有下面的 xml 那么您会使用以下命令变得昏昏欲睡 xml find animal find dog find beagle text jQuery 中是否有类似的方法来使用 xpath xml xpathfind an
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
HtmlAgilityPack - 获取文档中的所有节点

我想使用 HtmlAgilityPack 遍历文档中的所有节点将要 foreach HtmlNode node in myhtml DocumentNode SelectNodes do 你可以循环遍历myhtml DocumentNod
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制

随机推荐

PhantomJS CPU（核心）受限吗？

我开始做一些基于并行浏览器的测试并想看看在达到 100 CPU 之前我可以在 EC2 大型机器上并行运行多少个浏览器我正在使用 JMeter webdriver 插件来实际运行浏览器对于 FireFox 实际上每个 CPU 核心有 1
使用 Mongodb 和 Node.js 在一个页面中处理多个表单

我的登录和注册表单都在同一页面上我已经指定了两种不同的路由来发布数据但是当我点击注册表单末尾的注册按钮时它会保存登录表单输入没有我看了这个问题多种表单一张处理页面 https stackoverflow com questio
在word文档的标题中添加图片时出现问题

我正在Word文档的标题中添加图片它显示图像的框架并显示当前无法显示图像如果我将文本添加到标题它会显示文本如果我在文档正文中添加图像它也会显示图像获取图像也是如此它在标题上显示文本但没有图像我的支票快用完了有人可以建议
iOS - Xcode 错误：由于系统完整性保护而无法附加到进程

当我从 XCode 运行按钮运行应用程序共享扩展然后尝试共享文件时 XCode 经常显示以下错误有人知道是什么原因造成的吗错误由于系统完整性保护无法附加到进程系统完整性保护 SIP 又名无根是 OS X 10 11 中的一项新
巨大下拉列表的替代方案（24,000 多个项目）

在我的管理部分中当我编辑项目时我必须将每个项目附加到父项目我有超过 24 000 个父项目的列表这些项目按字母顺序列在下拉列表音乐艺术家列表中在下拉菜单中列出所有这些项目的编辑页面有 2MB 对于使用旧机器的人来说它的速度非
由尾随空格分隔的 Cobol 字符串

WORKING STORAGE FIRST STRING PIC X 15 VALUE SPACES SECOND STRING PIC X 15 VALUE SPACES OUTPUT STRING PIC X 31 VALUE SPAC
Mac/iPhone：有没有一种方法可以在不使用 Objective-C 的情况下获取线程标识符？

有没有一种方法可以获取当前正在运行的线程的任何类型的线程标识符而无需借助 Objective C 的 NSThread 我正在改进我们的自定义调试跟踪系统以正确处理多个线程对于跟踪输出的每一行我想打印线程 ID 或线程名称线程可以通
Hamcrest 与 MockMvc：检查键是否存在，但值可能为空

我正在使用 MockMvc 进行一些测试我想验证 JSON 响应的结构具体来说我想确保属性的键存在并且值是某种类型或为 null keyToNull null This may be null or a String keyToSt
Play 2.0 应用程序的依赖关系管理

我们小组对基于 JVM 的开发有些陌生我们正在开发由许多其他库组成的应用程序我们发现 Play 框架对于开发 Web 应用程序非常有吸引力该框架很棒但我们本地开发的库的依赖管理有点令人烦恼我们正在使用 Play 2 0 的 RC2
（响应式）表格宽度不适合 ios safari 上 iframe 内的容器

我在 iPhone 的 safari 上的 iframe 内渲染表格时遇到问题这是示例 http jsfiddle net qb86ojms http jsfiddle net qb86ojms 如果您在桌面浏览器较小的尺寸或 and
Java：使用类型参数访问私有构造函数

这是后续这个关于java私有构造函数的问题 https stackoverflow com questions 2599440 accessing the private constructor 假设我有以下课程 class Foo
IE toDataUrl() 安全错误

我需要从画布上获取图片因此我从 Amazon S3 获取图像我在那里启用了跨源资源共享 CORS 并将 croseOrigin 属性匿名设置为 img 它适用于 Chrome 和FireFox 但在 IE 上我通过调用 toDat
为什么这段代码会抛出 InvalidOperationException？

我认为我的代码应该使ViewBag test财产等于 No Match 但它会抛出一个InvalidOperationException 为什么是这样 string str Hello1 Hello Hello2 string anothe
任务“:app:checkReleaseDuplicateClasses”执行失败。扑

请找到以下文件 1 应用程序构建 gradle def localProperties new Properties def localPropertiesFile rootProject file local properties if
使用 Jest 模拟延迟() RxJS

有没有简单的方法来嘲笑delay 例如带有假时间的可观察对象中的 RxJS 方法我有这个方法 register user return this checkLog user delay 500 flatMap 当我删除时delay 方法
使用 ggplot2 在 3 个子图中绘制时间序列数据的原始值、环比变化和同比变化

给定两个每月时间序列数据样本我需要创建一个包含 3 个子图的图 plot1 表示原始值 plot2 表示逐月变化 plot3 表示逐年变化我可以用下面的代码绘制绘图但是代码太冗余了所以我的问题是如何以简洁的方式实现这一目标谢谢 l
Firebase Admin SDK：设置/合并自定义用户声明

Firebase 有什么技巧吗 merge true 设置额外更多定制索赔没有删除覆盖旧的变量重现步骤 admin auth setCustomUserClaims uid a value Run this first admin a
Bootstrap 3 + 选择 + jquery 验证丢失格式

我有下面的代码http jsfiddle net emamut CBjmj 4 http jsfiddle net emamut CBjmj 4 validator setDefaults ignore hidden not select
Vue.js - 如何获取 v-for 子组件中的最后一个子引用

我想在页面加载后播放最新的音频
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML