Hadoop：可以使用一对值作为“Key”吗？

2024-01-04

我正在尝试分析一个大型犯罪统计数据集，该文件约为 2 GB，CSV 格式。大约有 20 列，但我只对其中的一个子集感兴趣：Crime_Type 和 Crime_in_Year。例如，“入室盗窃”犯罪类型，从2001年到2013年，每年都会发生。我想要一个统计每年入室盗窃发生次数的结果。

所以我正在考虑有一个 key ，而 value 将是它在 2003 年出现的总和。在 hadoop/mapreduce 中是否可以有一对 value 作为 key ？

A Key可以是任何东西，只要它实现Writable。您可以很容易地编写自己的自定义密钥，如图所示here http://hadoop.apache.org/docs/current/api/org/apache/hadoop/io/Writable.html.

因此，借用文档，一种实现可能是

public class CrimeWritable implements Writable {    
       private int year;
       private String type;

       public void write(DataOutput out) throws IOException {
         out.writeInt(year);
         out.writeBytes(type);
       }

       public void readFields(DataInput in) throws IOException {
         year = in.readInt();
         type = in.readBytes();
       }

       public static CrimeWritable read(DataInput in) throws IOException {
         CrimeWritable w = new CrimeWritable();
         w.readFields(in);
         return w;
       }
     }

在相关说明中，您可能需要考虑使用比 map-reduce 更高级别的抽象，例如级联 http://www.cascading.org/ or 阿帕奇火花 http://spark.incubator.apache.org/.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

Hadoop：可以使用一对值作为“Key”吗？的相关文章

如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入

随机推荐

Java - 访问被拒绝 java.io.FileNotFoundException [重复]

这个问题在这里已经有答案了我有以下代码 List
如何借用HashMap同时读写？

我有一个函数f接受两个引用一个mut还有一个没有mut 我有以下价值观 f里面一个HashMap use std collections HashMap fn f a i32 b mut i32 fn main let mut map H
1064：执行 PyMySQL 查询时出现 SQL 语法错误 [重复]

这个问题在这里已经有答案了我正在使用 PyMySQL 从 python 执行 SQL 查询命令我的 pystyle 是pyformat发现使用 gt gt gt pymysql paramstyle pyformat 我的数据库和游标详
为什么我们通常使用||结束|？有什么不同？

我只是想知道为什么我们通常使用逻辑或两个布尔值之间不按位或尽管它们都运行良好我的意思是看看以下内容 if true true pass if true false pass if false true pass if false f
如果 GPS 关闭，WiFi getScanResults 将返回空列表。（安卓6.0.1）

我试图解释这个 gif 中的问题基本上这个测试应用程序接收 RSSI CHANGED 意图并在屏幕上显示扫描结果除非启用 GPS 否则扫描结果始终为空我想我的问题是why 要通过蓝牙和 Wi Fi 扫描访问附近外部设备的硬件标识符
LSApplicationQueriesSchemes 和派生数据

我想在我的应用程序中打开一个whatsapp url let whatsAppUrl NSURL string whatsapp send text Hello 2C 20World if UIApplication sharedAppli
使用正则表达式删除尾随小数点和零

这是从字符串中删除尾随小数和零的正确正则表达式吗我无法让它工作我缺少什么 78 000 gt 78 78 008 gt 78 008 str replaceAll 0 你需要逃离因为它是正则表达式中的一个特殊字符可以匹配任何字符您
查找 pandas.Series 中的值何时跨越/达到阈值

考虑以下系列 s pd Series 0 1 2 3 4 1 5 4 3 2 1 有没有一种简单的方法可以知道达到超过 2 值的次数没有明显的迭代解决方案上例的预期结果应为 4 系列中第 2 条线向上或向下交叉 4 次 Edit 更新
如何使用python yaml解析内部变量？

我有一个文件test yml Servers Server1 location Earth network ip 0 0 0 0 mac 00 00 00 00 00 00 inbound Configs Earth allowed con
irb 中的 Ruby 字符串比较和字符编码

这是错误 gt M nd med navnet Kim 30 094 29 946 148 Kvinder med navnet Kim 341 345 4 M nd med navnet Kim Hansen 1 586 1 573 13
VS 10 中的 VS 11 -D_SCL_SECURE_NO_WARNINGS 现在被视为错误

我试图使用最新的 boost split 函数并且使用较旧的 VS 编译器在使用它时通常会收到与 boost 代码实现中的不安全操作相关的警告现在当使用 Vs 11 时它会抛出一个与此相关的错误有没有办法让它在不修改boost代
CollectionView 上没有目录中的图片

我想显示目录中的所有图片但是我正在目录中创建文件夹以便可以对图片进行排序我想显示几个文件夹中的所有图片我正在使用代码 void viewDidLoad super viewDidLoad Do any additional setu
何时需要将表从 MyISAM 更改为 InnoDb？

这个问题就像我之前问题的延续 InnoDb 比 MyISAM 更适合频繁的并发更新和插入我这样说对吗 https stackoverflow com questions 1722155 am i right that innodb is
Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件

我是火花新手我正在使用以下配置集在 Spark 独立版 v3 0 0 中编写机器学习算法 SparkConf conf new SparkConf conf setMaster local conf set spark driver me
在 ob_start() 中使用 include()

这里需要一些 PHP 帮助包含的内容显示为 1 这意味着它是真实的但需要它的内容显示我不确定为什么不显示这是函数的简化版本 public function content website gt content Some conten
如何显示 npz 文件中的所有元素名称而无需完全加载？

我使用以下代码来显示 npz 文件中的元素名称但它需要完全加载文件这可能会很慢尤其是当文件很大时有没有一种方法可以提取元素名称而无需完全加载文件 x numpy load file for k in x iterkeys print
属性设置器的 PostSharp 方面，调用通用方法

我们有一个用于某些类似 MVC 的系统的基础对象其中后代中的每个属性都写成这样 public String FirstName get return GetProperty
Webpack 4 多部分库和子库

Overview 我正在使用 Webpack4 和 ES6 开发一个名为共享服务的 javascript 库其中包含不同的子文件夹每个子文件夹代表一个本地子库其中可能包含对其他第三个库的引用例如lodash等而且还对其他
如何知道 R 完成了多少个深度学习 epoch？

默认情况下提前停止处于启用状态h2o deeplearning 但是从 R 中我如何知道它是否确实提前停止了以及它停止了多少个纪元我试过这个 model h2o deeplearning print model 它告诉我有关层 M
Hadoop：可以使用一对值作为“Key”吗？

我正在尝试分析一个大型犯罪统计数据集该文件约为 2 GB CSV 格式大约有 20 列但我只对其中的一个子集感兴趣 Crime Type 和 Crime in Year 例如入室盗窃犯罪类型从2001年到2013年每年都会发生

Hadoop：可以使用一对值作为“Key”吗？

Hadoop：可以使用一对值作为“Key”吗？ 的相关文章

随机推荐

热门标签

Hadoop：可以使用一对值作为“Key”吗？的相关文章