使用 java Mapreduce 处理 JSON

2023-12-30

我是 hadoop mapreduce 新手

我输入了文本文件，其中数据已存储如下。这里只有几个元组（data.txt）

{"author":"Sharīf Qāsim","book":"al- Rabīʻ al-manshūd"}
{"author":"Nāṣir Nimrī","book":"Adīb ʻAbbāsī"}
{"author":"Muẓaffar ʻAbd al-Majīd Kammūnah","book":"Asmāʼ Allāh al-ḥusná al-wāridah fī muḥkam kitābih"}
{"author":"Ḥasan Muṣṭafá Aḥmad","book":"al- Jabhah al-sharqīyah wa-maʻārikuhā fī ḥarb Ramaḍān"}
{"author":"Rafīqah Salīm Ḥammūd","book":"Taʻlīm fī al-Baḥrayn"}

这是我的 java 文件，我应该在其中编写代码（CombineBooks.java）

package org.hwone;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.GenericOptionsParser;

//TODO import necessary components

/*
*  Modify this file to combine books from the same other into
*  single JSON object. 
*  i.e. {"author": "Tobias Wells", "books": [{"book":"A die in the country"},{"book": "Dinky died"}]}
*  Beaware that, this may work on anynumber of nodes! 
*
*/

public class CombineBooks {

  //TODO define variables and implement necessary components

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args)
                .getRemainingArgs();
    if (otherArgs.length != 2) {
      System.err.println("Usage: CombineBooks <in> <out>");
      System.exit(2);
    }

    //TODO implement CombineBooks

    Job job = new Job(conf, "CombineBooks");

    //TODO implement CombineBooks

    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

我的任务是在“CombineBooks.java”中创建一个 Hadoop 程序返回到“question-2”目录中。该程序应该做以下：给定输入作者书籍元组，map-reduce 程序应该生成一个 JSON 对象，其中包含所有 JSON 数组中同一作者的书籍，即

{"author": "Tobias Wells", "books":[{"book":"A die in the country"},{"book": "Dinky died"}]}

知道如何做到吗？

首先，您尝试使用的 JSON 对象不可用。为了解决这个问题：

转到此处并下载 zip 文件：https://github.com/douglascrockford/JSON-java https://github.com/douglascrockford/JSON-java
解压到子目录 org/json/* 中的源文件夹中

接下来，代码的第一行创建一个包“org.json”，这是不正确的，您应该创建一个单独的包，例如“my.books”。

第三，这里使用combiner是没有用的。

这是我最终得到的代码，它可以工作并解决您的问题：

package my.books;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.json.*;

import javax.security.auth.callback.TextInputCallback;

public class CombineBooks {

    public static class Map extends Mapper<LongWritable, Text, Text, Text>{

        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{

            String author;
            String book;
            String line = value.toString();
            String[] tuple = line.split("\\n");
            try{
                for(int i=0;i<tuple.length; i++){
                    JSONObject obj = new JSONObject(tuple[i]);
                    author = obj.getString("author");
                    book = obj.getString("book");
                    context.write(new Text(author), new Text(book));
                }
            }catch(JSONException e){
                e.printStackTrace();
            }
        }
    }

    public static class Reduce extends Reducer<Text,Text,NullWritable,Text>{

        public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException{

            try{
                JSONObject obj = new JSONObject();
                JSONArray ja = new JSONArray();
                for(Text val : values){
                    JSONObject jo = new JSONObject().put("book", val.toString());
                    ja.put(jo);
                }
                obj.put("books", ja);
                obj.put("author", key.toString());
                context.write(NullWritable.get(), new Text(obj.toString()));
            }catch(JSONException e){
                e.printStackTrace();
            }
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        if (args.length != 2) {
            System.err.println("Usage: CombineBooks <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "CombineBooks");
        job.setJarByClass(CombineBooks.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(NullWritable.class);
        job.setOutputValueClass(Text.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

这是我的项目的文件夹结构：

src
src/my
src/my/books
src/my/books/CombineBooks.java
src/org
src/org/json
src/org/json/zip
src/org/json/zip/BitReader.java
...
src/org/json/zip/None.java
src/org/json/JSONStringer.java
src/org/json/JSONML.java
...
src/org/json/JSONException.java

这是输入

[localhost:CombineBooks]$ hdfs dfs -cat /example.txt
{"author":"author1", "book":"book1"}
{"author":"author1", "book":"book2"}
{"author":"author1", "book":"book3"}
{"author":"author2", "book":"book4"}
{"author":"author2", "book":"book5"}
{"author":"author3", "book":"book6"}

要运行的命令：

hadoop jar ./bookparse.jar my.books.CombineBooks /example.txt /test_output

这是输出：

[pivhdsne:CombineBooks]$ hdfs dfs -cat /test_output/part-r-00000
{"books":[{"book":"book3"},{"book":"book2"},{"book":"book1"}],"author":"author1"}
{"books":[{"book":"book5"},{"book":"book4"}],"author":"author2"}
{"books":[{"book":"book6"}],"author":"author3"}

您可以使用这三个选项中的一个来放置org.json.*类到您的集群中：

打包org.json.*类到您的 jar 文件中（可以使用 GUI IDE 轻松完成）。这是我在答案中使用的选项
将包含的 jar 文件放入org.json.*将每个集群节点上的类放入 CLASSPATH 目录之一（请参阅yarn.application.classpath）
将包含的 jar 文件放入org.json.*进入HDFS（hdfs dfs -put <org.json jar> <hdfs path>）并使用job.addFileToClassPath要求此 jar 文件可用于在集群上执行作业的所有任务。在我的回答中你应该添加job.addFileToClassPath(new Path("<jar_file_on_hdfs_location>")); to the main

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

Hadoop

MapReduce

使用 java Mapreduce 处理 JSON 的相关文章

如何在 JSON 中转义双引号

我试图显示双引号但它显示了反斜杠之一 maingame day1 text1 Tag 1 text2 Heute startet unsere Rundreise Example text Jeden Tag wird ein neues
Postgres JSON 数据类型 Rails 查询

我正在使用 Postgres 的 json 数据类型但想要使用嵌套在 json 中的数据进行查询排序我想在 json 数据类型上使用 where 进行订购或查询例如我想查询关注者数量 gt 500 的用户或者我想按关注者或关注数
处理 fanart.tv Web 服务响应 JSON 和 C#

我正在尝试使用 fanart tv Webservice API 但有几个问题我正在使用 Json Net Newtonsoft Json 并通过其他 Web 服务将 JSON 响应直接反序列化为 C 对象这里的问题是元素名称正在更改
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
C# Newtonsoft 反序列化 JSON 数组

我正在尝试使用 Newtonsoft 反序列化数组以便我可以在列表框中显示来自基于云的服务器的文件但无论我尝试什么我总是会收到此错误 Newtonsoft Json JsonReaderException 解析值时遇到意外字符路径
在 Node.js 中解析 Json（带有数组和对象）并将数据导出到 Excel 文件中

我是 Node js 新手我的要求是我需要解析 JSON 并将数据导出到 Excel 文件中其中包含 JSON 中的所有字段我的 JSON 如下 id 1255 title The Brain and Nervous System
Postgres JSONB：数组数组的 where 子句

postgres 中有 v 9 5 如果有的话 create table json test id varchar NOT NULL data jsonb NOT NULL PRIMARY KEY id 其中 data 是 json 并且包
来自 iPhone/iPad 的 json Web 服务

有人可以帮助我解决如何从 iphone 或 ipad 使用 json Web 服务的问题吗这里我的要求是使用 API 密钥实现 json webservice 如果可能的话发布一些教程或示例链接谢谢规范的 JSON 处理库是here
全局传递 xhr onload 函数的值

在我正在创建的应用程序中我有以下 XMLHttpRequest 并且我正在尝试传递结果data在的里面xhr onload 到在同一父函数中创建的数组中 var url http api soundcloud com resolve j
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
包含 contains 的 json 格式查询

我在 ansible 中有以下 json 输出 active transaction null cores 4 hostname alpha auth wb01 active transaction null cores 4 hostnam
如何返回 json 结果并将 unicode 字符转义为 \u1234

我正在实现一个返回 json 结果的方法例如 public JsonResult MethodName Guid key var result ApiHelper GetData key Data is stored in db as v
如何舍入、取整、取整、截断

如何对 jq jq 1 5 1 a5b5cbe 中的数字进行舍入取整取整和截断例如与 mass 188 72 我想 mass 188 有地板 mass 189 与天花板和圆形舍入示例 5 52 gt 6 5 50 gt 5 or
如何使用 jq 从多个嵌套数组中提取键

SETUP 我试图弄清楚 jq 过滤器是如何工作的但在找出嵌套数组时遇到了困难使用下面的数据我无法做出平的 5 键输出我可以得到 1 个键和 4 个空值或者 4 个键和 1 个空值但不能得到所有 5 个键 1 个键 4 个空值 R
Rails 3.2：用 json 序列化中的空字符串替换 null 值

我正在使用 Rails 3 2序列化 http www simonecarletti com blog 2010 04 inside ruby on rails serializing ruby objects with json 将 ru
复杂对象MVC3的JSON序列化

我有一个问题我似乎不知道如何序列化类型的对象 public class SchedulingCalendarMonth public List
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
通过标识引用对象的标准方法（例如循环引用）？

JSON 中是否有通过身份引用对象的标准方法例如具有大量可能是循环引用的图形和其他数据结构可以被合理地序列化加载吗 Edit 我知道做一次性解决方案很容易列出图中所有节点的列表然后我想知道是否有一个标准的通用的解决方案来解
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List

随机推荐

掌握递归编程[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我在递归方面思考解决问题时遇到困难我真的很欣赏这个概念我可以理解它们例如创建基本情况退出情况和递归调用等我可以解决简单的问题例如在
在控制器中创建没有区域的子文件夹

我正在开发一个 MVC 3 Web 应用程序我想创建这样的东西 Controller Blog BogController cs ViewsController cs ArticlesController cs Customers Sal
如何将环境变量添加到VS解决方案（.sln）

我需要为解决方案中的所有项目拥有自己的环境变量例如 VsInstallDir 我如何在我的解决方案中定义它我正在使用VS2008 C 解决方案我有一个类似的问题随之而来的问题 https stackoverflow com quest
如何使用 Xcode9 在调试区域显示此日志消息？

This https stackoverflow com a 25951564 2348597看起来很有希望但似乎不是一个重复的问题因为它解决了 Swift 中的问题我正在完成一个现有的 Objective C 项目但是NSLog当
JavaScript 函数返回给定颜色的“n”个色调（从暗到亮）

我想获取用于生成标签云的特定颜色的颜色范围假设用户输入了一些颜色RGB HHHHHH值然后我想写一个函数f color no 返回RGB HHHHHH对于指定颜色从深色到浅色的不同色调的否这些颜色将有助于显示具有相同色调的不同颜色
Python 将字典转换为 CSV

我正在尝试将字典转换为 CSV 以便它可读在各自的键中 import csv import json from urllib request import urlopen x 0 id num 848649491 883560475 43
在java中查找RGB的按位版本

我有以下方法获取 rgb 值并使用较小的调色板对其进行分类 private static int roundToNearestColor int rgb int nrColors int red rgb gt gt 16 0xFF int
代码中未定义的错误

我的 php 代码有问题我在这两行中都得到未定义的索引 Page GET Page if GET Page 它只发生在第一页当然它应该只发生在那时有人可以告诉我如何解决吗我发现了类似的东西但我无法完全删除该通知 empty GET
如何从 Ansible 设置模块的输出中获取列表的第一个元素？

我从设置模块收到以下数据 ansible nodename 3d734bc2a391 ansible os family RedHat ansible pkg mgr yum ansible processor AuthenticAMD A
检查页面上是否存在Javascript脚本

我制作了一个书签它将脚本从我的服务器加载到用户当前页面上但是我在脚本中进行了 if 检查如果不满足条件则不采取任何操作但是如果用户满足该条件则代码将运行但会导致将两组脚本插入到其页面中我可以阻止这个吗 a href Bo
如何在 Winforms Designer 中设置组合框的默认值？

Locked 有对该问题内容的争议 help locked posts此时正在解决目前不接受新的答案或互动我正在使用 Visual Studio 2010 用 C 编写一个 Windows 窗体应用程序它有一个组合框我已经设置了Dr
如何在 Gradle 中设置 Kotlin 源编码？

使用 Gradle 构建 Java 或 Groovy 时可以像这样定义源编码 compileJava options encoding UTF 8 compileTestJava options encoding UTF 8 compil
如何限制对 Elmah 的远程访问？

在我们的开发 Web 服务器上安装 Elmah 后我们可以限制谁远程访问它吗即使我们对用户名密码进行硬编码散列还是仅通过 IP 有两种设置一种是在
在构造函数重载的情况下如何调用 super(...) 和 this(...) ？

我以前从未需要这样做但由于两者都必须是构造函数中的第一行应该如何处理它对于这种情况最好的重构是什么这是一个示例 public class Agreement extends Postable public Agreement
使 LinearLayout 像 Button 一样工作

我有一个LinearLayout我设计得看起来像button 它包含一些文本 ImageView 元素我想做整体LinearLayout表现得像一个button 特别是赋予它在 a 中定义的状态以便在按下时它具有不同的背景有没有比制作
浏览器窗口中的所有选项卡是否共享一个 JavaScript 线程？

一般来说浏览器中的 JavaScript 执行被认为是单线程的这个单一线程是否适用于浏览器窗口中打开的所有选项卡换句话说如果不同的 JavaScript 代码在不同的选项卡中运行它们都是使用单个线程执行的吗此外当您打开同一浏
将seaborn图例移动到不同的位置

我在用着factorplot kind bar 与海博恩情节很好只是图例放错了位置太靠右文本超出了情节的阴影区域如何让seaborn将图例放在其他地方例如左上角而不是右中基于 user308827的答案你可以使用legend
我可以在 Facebook 应用程序上设置页面选项卡高度吗？

我使用以下命令创建了一个 Facebook 页面选项卡应用程序Heroku 托管选项 https devcenter heroku com articles facebook 我看到一个用于将页面选项卡宽度设置为正常 810 像素或
Raphaël 对象：模拟点击

是否可以模拟拉斐尔对象上的点击我已经尝试过了 object click Error click is not a function or object dispatchEvent click Error Could not convert
使用 java Mapreduce 处理 JSON

我是 hadoop mapreduce 新手我输入了文本文件其中数据已存储如下这里只有几个元组 data txt author Shari f Qa sim book al Rabi al manshu d author Na s i

使用 java Mapreduce 处理 JSON

使用 java Mapreduce 处理 JSON 的相关文章

随机推荐

热门标签