将json数据保存在hadoop的hdfs中

2024-02-18

我有以下减速器类

public static class TokenCounterReducer extends Reducer<Text, Text, Text, Text> {
    public void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {

        JSONObject jsn = new JSONObject();

        for (Text value : values) {
            String[] vals = value.toString().split("\t");
            String[] targetNodes = vals[0].toString().split(",",-1);
            jsn.put("source",vals[1] );
            jsn.put("target",targetNodes);

        }
        // context.write(key, new Text(sum));
    }
}

通过示例（免责声明：这里是新手），我可以看到一般输出类型似乎像键/值存储。

但是如果我的输出中没有任何键怎么办？或者如果我想要输出是其他格式（在我的例子中是 json ）怎么办？

无论如何，从上面的代码来看：我想写json反对HDFS？

这在 Hadoop 流中非常简单。但是我如何在 Hadoop java 中做到这一点？

如果您只想将 JSON 对象列表写入 HDFS 而不关心键/值的概念，您可以使用NullWritable在你的Reducer产值：

public static class TokenCounterReducer extends Reducer<Text, Text, Text, NullWritable> {
    public void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        for (Text value : values) {
            JSONObject jsn = new JSONObject();
            ....
            context.write(new Text(jsn.toString()), null);
        }
    }
}

请注意，您需要更改作业配置才能执行以下操作：

job.setOutputValueClass(NullWritable.class);

通过将 JSON 对象写入 HDFS，我了解到您想要存储我上面描述的 JSON 的字符串表示形式。如果您想将 JSON 的二进制表示形式存储到 HDFS 中，您需要使用SequenceFile。显然你可以自己写Writable为此，但我觉得如果您打算有一个简单的字符串表示，这样会更容易。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

json

Hadoop

MapReduce

reducers

将json数据保存在hadoop的hdfs中的相关文章

Spring JSON序列化、Gson反序列化

我目前在某些内部对象的反序列化方面遇到问题在春天我在使用输出之前初始化所有对象 ResponseBody 例如这是一个响应 id 1 location id 1 extra location data id 2 location 1
无法解析 Java 中的方法

我有一个Question具有 4 个的对象Answer里面的物体在 Question java 我有一个方法是 public Answer getA return a 在另一种方法中我有 if questions get randomNu
连接到 Apache Kafka 多节点集群中的 Zookeeper

我按照以下说明设置了多节点 kafka 集群现在如何连接到zookeeper 是否可以从 JAVA 中的生产者消费者端仅连接到一个 ZooKeeper 或者是否有一种方法可以连接所有 ZooKeeper 节点设置多节点 Apache
Java中单击和双击的区别

我搜索论坛并看到以下代码 public void mouseClicked MouseEvent e if e getClickCount 2 System out println and it s a double click wasDo
Tomcat：Java 静态变量作用域、应用程序范围还是会话范围？

java 静态变量是否在使用相同 web 应用程序的所有会话之间共享或者每个会话都有自己的静态变量版本吗换句话说 Tomcat 是为每个会话创建一组新的类还是为整个 Web 应用程序创建一组新的类 Tomcat 创建一个ClassLo
在java中查找OSX的版本

我需要测试 java 中 osx 的版本是否 Try System getProperty os name and or System getProperty os version 它返回字符串 HERE https docs oracle
Spring Security 的 AJAX 请求给出 403 Forbidden

我有一个基于spring boot spring security thymeleaf的网站在某些情况下我也使用ajax 问题我在 Spring Security 中使用表单登录安全性在浏览器中登录后我可以使用rest API GE
json文件格式的升级路径

我们将 Java 应用程序的用户首选项存储在 JSON 文件中使用Jackson http jackson codehaus org 随着我们继续开发该应用程序我们将添加首选项重命名首选项并删除过时的首选项当用户将应用程序升级到下一
如何在android中播放内部和外部SD卡中的mp3文件？

我正在开发一个 mp3 播放器应用程序它可以播放内部 SD 卡内任何位置的 mp3 文件我使用以下代码来获取内部存储中存在的 mp3 文件 ArrayList
更改 WireMock __files 目录

来自docs http wiremock org docs stubbing 要从文件中读取正文内容请将文件放在 files 下目录默认情况下这应该位于 src test resources 下从 JUnit 规则运行时当独立运
如何在 jax-ws 客户端中隐藏（可能）由 jax-ws 库引起的警告

我正在使用 netbeans 在我的应用程序中生成 Web 服务客户端我的程序使用 jax ws 库来设置调用 Web 服务的超时出现问题是因为每当我启动这个程序时它都会生成很多这样的警告消息 2010 年 12 月 13 日下午 4
调整 Java 类以提高 CPU 缓存友好性

在设计java类时对于实现CPU缓存友好性有哪些建议到目前为止我学到的是应该尽可能多地使用 POD 即 int 而不是整数这样在分配包含对象时数据将被连续分配例如 class Local private int data0 pr
了解 Etc/GMT 时区

Apple 在从 App Store 返回自动续订订阅收据时使用 Etc GMT 时区的理由是什么 Etc GMT 时区到底是什么 Java SDK 能理解这个时区吗或者我是否必须使用其他第三方库例如乔达时间 http www joda
告诉 JAXB 使用注释将解组为 Date 类

将 JAXB 与 Java First 一起使用时类型的字段属性java util Date编组和解编为xs dateTime一切都按预期进行但是如果字段属性的类型是Object JAXB 解组xs dateTimeto XMLGr
DOM 中不再存在缓存元素

就像在类似的问题中一样我使用appium java 尝试选择元素在移动应用程序中我要转到页面之后有许多元素 android widget ImageView 0 我需要选择 6 个例如这样的元素并执行其他步骤 Byt 只能选择一
如何使用 log4j2.xml 配置 hibernate 日志记录？

我最近切换到 Apache log4j2 但仍然找不到使用 log4j2 xml 配置 hibernate 日志记录的方法因为我找不到解决此问题的方法所以我仍然显式使用 log4j properties 文件进行休眠这不是最好的解决方
异步方法的同步版本

在 Java 中创建异步方法的同步版本的最佳方法是什么假设您有一个包含这两种方法的类 asyncDoSomething Starts an asynchronous task onFinishDoSomething Called when
Spring Boot 和安全性以及自定义 AngularJS 登录页面

我正在为 Spring Security 实现一个自定义 AngularJS 登录页面但遇到身份验证问题遵循本教程示例以及他们的示例在本地运行良好 https github com dsyer spring security ang
Java 和 SQL Server 中的精度噩梦

我一直在与 Java 和 SQL Server 中的精确噩梦作斗争直到我不再知道了就我个人而言我理解这个问题及其根本原因但向地球另一端的客户解释这一点是不可行的至少对我来说情况是这样的我在 SQL Server 中有两列 Qt
切换按钮形状不变

我正在尝试制作一个带有绿色背景的圆形切换按钮我用了

随机推荐

Mechanize 无法在 Google Appengine 中自动登录 Gmail

我已经使用 mechanize 并在 GAE 上部署了一个应用程序它运行良好但是对于我正在制作的应用程序我正在尝试通过 mechanize 自动登录 Gmail 它在本地计算机上的开发环境以及部署在 appengine 上后都不起作
重新定义后更新变量值

一个新手问题给各位 R 朋友案例场景我定义变量A A 数字我根据A定义其他变量 B number A 我改变A的定义 A 不同的数字问如何让 R 自动更新 B 的值而不需要再次重新定义它例如 1 A 1000 2 B A 10
如何在android中使用相机捕获自定义尺寸的图像？

如何在android中捕捉方形图像我想在android中通过intent调用Camera来捕获方形图像例如300x300像素我该怎么做编辑自 API 级别 21 起已弃用使用 Camera Size 嵌套类 http devel
java.io.EOFException 与 paho

我想对蚊子进行压力测试所以我创建了一些代码如下所示 for int i 0 i lt 800 i final int j i Thread t new Thread new Runnable Override public void r
为什么 Sun Java 中的 HashSet 实现使用 HashMap 作为其支持？

查看Java 6的源码 HashSet
使用 SugarORM 和 GSON 解析字符串 id

我在用着GSON创建一个SugarRecord来自 json 响应的对象我使用的API返回一个名为 id 的字段但 id 的类型是字符串而不是long 后端使用mongo 下面是我正在使用的代码 Gson gson new Gson
在 xaml 中创建字典？

伪示例
使用 JodaTime Instant 与 Hibernate 进行版本控制

Using java time Instant与 Hibernate 一起工作我正在使用hibernate java8 给出了更多的解决方案here https stackoverflow com a 26455446 581205 使用
在 BLL 中处理异常并返回给客户端（winforms 或 webforms）？

我正在寻找进行异常处理的最佳方法例如当业务逻辑层中发生错误时使用 catch 停止方法并将事件返回到表示层的最佳方法是这个活动应该包含什么内容或者我应该总是冒泡异常并在表示层中处理它们任何人都有一些很好的链接并且需要阅读有关处
在 SQLite 中转义表名？

我在 SQLite 中有一个名为 References 的表所以我似乎无法定位它我用 SQLite studio 编辑数据库抛出错误有没有办法转义数据库名称查询是 UPDATE References SET DateTimeLast
如何在 C# 中创建动态设置属性名称的 JSON 对象？

我需要返回一个 JSON 对象数组它是 SQL 查询的结果 SQL 查询可以是任何内容因此我需要在代码中动态创建属性名称和值例如从员工中选择first name last name 我想返回 data first name dave
Angular 2 提交后如何清除表单？

我有一些带有模板的简单 Angular 2 组件提交后如何清除表单和所有字段我无法重新加载页面设置数据后date setValue 场依然touched import Component from angular2 core impo
WebLogic 12 SSLKeyException：重新启动后主机名验证失败

我在 WebLogic 12 1 2 0 0 上部署了一个 WAR 文件应用程序通过 HTTPS 调用 Web 服务证书导入到 DemoTrust jks 中所有 SSL 相关设置都应该正确实际上它可以工作但是在服务器重新启动后
动态linq：有没有办法通过索引访问对象数据？

我需要使用 Dynamic Linq 进行一些内存中过滤我的对象只有一个索引器 public object this int index 对我的数据的访问如下对象 0 对象 1 所以我的查询是这样的 get FilterText fro
Matplotlib：个性化 imshow 轴

我有一个结果 H ranges numpy histogram2d 计算我正在尝试绘制它 Given H我可以轻松地将它放入plt imshow H 即可得到对应的图像看http matplotlib org api pyplot ap
将数组中的项目替换为不同集合中的元素

我不确定递归地处理这个问题的正确方法假设我有两个数组 array1 a null c d e array2 1 2 3 我想创建一个以下形式的结果数组 a 1 c d e a 2 c d e a 3 c d e 其中第二个数组的每个元素都
Android 10 当我们在另一个应用程序中时，来电通知就像什么应用程序一样

一旦我们收到 Android 10 后台启动活动受限的 FCM 推送通知消息当我们在另一个应用程序中时需要像 WhatsApp 和 Skype 通知来电这样的解决方案 int NOTIFICATIONID 1234 Uri sound
如何在 R 中创建条件逻辑回归的空模型？

我想看看在 R 中使用条件逻辑回归离散选择时包含一些协变量是否会给我一个小于空模型的 AIC 我意识到我可以建立一个模型例如 mymodel lt clogit choice dark soft nuts strata ID dat
在 .NET 中使用 asp 对象 - 最大兼容性

我有一些旧版 XSLT 脚本其中包含了 VBScript 它们在旧系统上运行我无法更改该系统我现在需要对 XSLT 进行更改以以不同的方式转换文件我构建了一个简单的 NET 项目来测试我的 XSLT 转换 STAThread pub
将json数据保存在hadoop的hdfs中

我有以下减速器类 public static class TokenCounterReducer extends Reducer

将json数据保存在hadoop的hdfs中

将json数据保存在hadoop的hdfs中 的相关文章

随机推荐

热门标签

将json数据保存在hadoop的hdfs中的相关文章