将大型 XML 文件拆分为 Hadoop 的可管理部分

2023-12-01

是否有一个输入类可以根据 Hadoop 中的树结构处理[多个]大型 XML 文件？我有一组具有相同架构的 XML 文件，但我需要将它们拆分为数据部分，而不是分解这些部分。

例如，XML 文件为：

<root>
  <parent> data </parent>
  <parent> more data</parent>
  <parent> even more data</parent>
</root>

我将每个部分定义为： /根/父级。

我要问的是：Hadoop 是否已经包含一个记录输入读取器来执行此操作？

我觉得UMD 的 Cloud9 项目可能会帮助你。

该图书馆提供了一个XMLInputFormat 类这可能有用。

同样有趣的是 Cloud9 文档中的此页面，它介绍了如何处理MapReduce 中维基百科的 XML 转储.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

Hadoop

将大型 XML 文件拆分为 Hadoop 的可管理部分的相关文章

处理 oozie 工作流程中的循环

我有一个 oozie 用例用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业所以我编写了一个 shell 脚本来检查输入数据并在 oozie 中为其创建了一个 ssh 操作输入数据检查的重试次数和重试间隔应该是可配
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
如何使用xquery查找节点并向其添加子节点？

是否可以使用xpath xquery查询特定的xml节点然后向其导入添加子节点示例代码取自http codepad org gJ1Y2LjM http codepad org gJ1Y2LjM 这是在类似的问题中提出的但不相同 1
SimpleXML插入处理指令（样式表）

我想集成一个XSL文件在一个XML给我的字符串php CURL命令我试过这个 output XML gived me by curl option hotel simplexml load string output hotel gt a
2n + 1 法定人数是什么意思？

我在描述 HBase 的 Zookeeper 配置时遇到过这个问题但我对这个术语并不熟悉 N 与我的 HBase 集群中的节点数量有关系吗或者我应该在 Zookeeper 集群中使用的节点数量 2f 1是指你所需要的可靠性可用性水平
使用 XSL 1.0 有条件地包装内容

我正在寻找一种用 xsl 包装内容的方法这是我正在做的事情的简化示例 Lot s of content 是大量内容锚标记仅用作示例它可以是一个 div 或其他任何东西 XML
带有 xml 文件内容的 NuGet 恢复包 - 工作示例？

使用的工具 Visual Studio 2015 Enterprise Nuget 3 5 NET Framework 4 0 有谁有包含一些 xml 文件和 dll 库的 NuGet 包的工作示例吗我在很多地方读过关于此的零散注释但我
如何替换 XSLT 1 中的多个文本子字符串

对于 XSLT 1 0 XSLT 2 0 的正则表达式方法通常不可用是否有任何非正则表达式方法可以替换源 xml 文档中节点中的多个字段例如转换
LINQ to XML - 如何正确使用 XDocument

现在我首先要说的是这确实是一项任务然而在我遇到 Linq to XML 语法之前我几乎已经完成了它我有 2 个课程曲目和 CD 现在作为作业的一部分我创建了一张 CD 然后向其中添加了一些曲目在搜索了大量完美解释了如何从 x
从 XPath 中的选择中排除特定标记

我知道这是一个简单的问题但我无法弄清楚考虑以下简单的 XML 文档
如何使用 RSA-SHA1 算法对 xml 元素进行签名？

我需要使用 RSA SHA1 算法签署并最终验证 XML 文档的节点之一 w3 org 链接 https www w3 org TR xmlsec algorithms RSA SHA1 网址 http www w3 org 2000 0
如何在 XML 模式中正确使用 unique 和 keyref？

我有这个 XML 架构但我不知道如何完成它以实现我的需要我在网上搜索了很多有关 unique 和 keyref 用法的信息但我能找到的只是基本示例这是我的架构
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
XML获取所有同名节点

我有如下所示的 xml 文档
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
无法在 C# 中反序列化 XML - 无法识别的元素“add”

我有一个使用自定义部分进行配置的 C 应用程序我将这部分 XML 定义为字符串该字符串如下所示 var xml
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
在 Java 中通过 XSLT 分解 XML

我需要转换具有嵌套分层表单结构的大型 XML 文件
如何在 Objective-C 中解析包含 XML 的 NSString？

在我的 iPhone 应用程序中我有以下 NSString NSString myxml

随机推荐

Perl Getopt 多次使用相同选项

In Perl getopts 是否可以多次使用相同的选项但具有不同的值我想为用户提供输入不同网格坐标的选项但使用相同的选项名称以最大程度地减少混乱 Ex my grid pl coords 10 12 coords 18 30 coo
使用 AWT Robot 在 Mac 上切换应用程序有时有效

我正在尝试使用机器人来切换应用程序然后输入一些文本为此在我的 Mac 上我按 Meta Tab 然后按以下顺序释放 Tab Meta Robot robot new Robot robot keyPress KeyEvent VK
刚性类型变量不匹配

我有以下失败的 Haskell 代码Couldn t match type a with a1 error bar Int gt a gt Int gt a gt a gt a bar ns fp ap snd foldl fn fp ap
如何使用Python只读取目录中的wav文件？

from scipy io wavfile import read files f for f in os listdir if os path isfile f print files for i in range 0 1 w read
自动映射器 - 继承映射器不与类型转换器一起使用

不能同时使用映射继承和 TypeConverter 我有这个代码 BaseClassTypeConverter cs public class BaseClassTypeConverter ITypeConverter
TRUE 用作矩阵索引时如何解释？

我在某处看到一些错误的代码结果调用了一个执行的函数mymatrix TRUE 一路上事实证明至少在我测试的样本中这被解释为选择矩阵的所有元素清楚地不是胁迫TRUE to 1 因为那样我只会得到返回的第一个元素而不是整个矩阵
PlayN 字体支持

PlayN 或支持库如 TriplePlay 等对非标准字体特别是自定义 TrueType 字体提供何种支持您必须在要使用的每个后端上以不同的方式注册字体但是一旦按名称注册了字体您就可以像任何内置字体一样使用它只需调用Pla
如何在片段内实现viewpager？

我一直在寻找并很难找到一个明确的例子我试图了解如何在从我的 mainActivity 作为抽屉项目打开的片段中创建视图分页器这是我的尝试但我认为我做错了什么无论是我错误地包含它还是将它放在错误的位置 public class Ran
如何根据组合框选择更改多个标签？

我希望你知道如何根据不同的标签在不同的标签中拥有多个值Combobox下拉列表选择例如假设您有一个Combobox与值 car house computer 和多个Label选择时反映不同尺寸和颜色Combobox 如果我选择car 我
极坐标图在 matplotlib 中给出错误的角度

我正在尝试用Python绘制赤经赤纬极坐标图其中角度表示赤经半径表示赤纬范围在 30之间我的代码是 import numpy import matplotlib pyplot as pyplot ra 345 3895474541
无论如何，保持导航栏中的 Bootstrap Dropdown 打开

我有一个嵌套在导航栏中的下拉菜单我在页面加载期间通过添加以下内容打开该菜单open类到li包含下拉菜单的元素我希望无论用户单击什么内容或单击页面上的哪个位置此菜单都保持打开状态我尝试过在 Stackoverflow com 上找到的
如果添加另一个数据流，解析器无法解析

我正在尝试使用解析器来根据路由保存的给定参数检索数据不幸的是当我添加另一个数据流时我的数据依赖于解析器但实际上从未解析如果我直接返回一个立即解析值一切都会正常我调试了这种情况发现我收到了所有部分信息但最终未能真正解决这是
使用 compgen 获取另一个命令的自动完成功能，使用哪个标志？

我有一个自定义自动完成命令称之为commandA in commandB我想窃取命令第一个参数的自动完成选项因此例如 commandA 的 argument1 的选项是 abcdef abcabc abc123 我想要类似的东西com
ActiveMQ 的 NoSuchMethodError

java lang NoSuchMethodError org apache activemq thread TaskRunnerFactory setThreadClassLoader Ljava lang ClassLoader V a
侧面加载即时应用程序失败：读取捆绑包超时

无法使用 Android 模拟器来测试即时应用程序每次我得到侧面加载即时应用程序失败读取捆绑包超时我在用着 Android Studio 3 0 金丝雀 5 Emulator 运行 Android 6 0 API 级别 23 x86
如何使用流畅的 NHibernate 将枚举映射为 int 值？

问题确实说明了一切默认情况下它映射为string但我需要它映射为int 我目前正在使用PersistenceModel如果这有什么区别的话我可以设定我的惯例 Update发现从主干获取最新版本的代码解决了我的困境定义这个约定的方式以前
如何从自定义视图（NSView）中制作缩略图视图？

如何制作缩略图视图不是图像形成自定义视图 NSView 如果自定义 NSView 的内容发生更改缩略图视图也会发生更改看起来像ibook作者谢谢大家 https plus google com u 0 photos 1147559
用于生成唯一 ID 的 iOS 硬件参数

您好我想使用任何设备硬件参数为 iOS 设备生成一个唯一的 ID 我不想使用 MAC 地址因为 MAC 地址也有可能被更改那么您能否告诉我是否有任何其他唯一的硬件参数可以用来生成唯一的 ID 我相信类似的事情this是普遍接受的 UU
无法对已卸载的组件执行 React 状态更新。这是一个无操作

这是控制台中的警告警告无法对已卸载的组件执行 React 状态更新这是一个空操作但它表明应用程序中存在内存泄漏要修复此问题请取消 useEffect 清理函数中的所有订阅和异步任务这是我的代码 const index setI
将大型 XML 文件拆分为 Hadoop 的可管理部分

是否有一个输入类可以根据 Hadoop 中的树结构处理多个大型 XML 文件我有一组具有相同架构的 XML 文件但我需要将它们拆分为数据部分而不是分解这些部分例如 XML 文件为

将大型 XML 文件拆分为 Hadoop 的可管理部分

将大型 XML 文件拆分为 Hadoop 的可管理部分 的相关文章

随机推荐

热门标签

将大型 XML 文件拆分为 Hadoop 的可管理部分的相关文章