Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

2024-04-21

我被困了几天，因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序，在谷歌搜索后我发现没有太多例子，而且我仍然对规则感到困惑。

创建自定义 MapReduce 程序的规则是什么？映射器和减速器类怎么样？

任何人都可以提供任何解决方案吗？

我想用Java开发这个程序，但我仍然卡住了，然后在收集器中格式化输出时，如何在映射器和减速器类中格式化结果？

有人想给我一些关于这类东西的例子和解释吗？

基本上有两种方法可以将自定义映射器/化简器添加到 hive 查询。

using transform

SELECT TRANSFORM(stuff1, stuff2) FROM table1 USING 'script' AS thing1, 东西2

其中 stuff1、stuff2 是 table1 中的字段，而 script 是接受我稍后描述的格式的任何可执行文件。 thing1、thing2 是脚本的输出

使用映射和减少

FROM (
    FROM table
    MAP table.f1 table.f2
    USING 'map_script'
    AS mp1, mp2
    CLUSTER BY mp1) map_output
  INSERT OVERWRITE TABLE someothertable
    REDUCE map_output.mp1, map_output.mp2
    USING 'reduce_script'
    AS reducef1, reducef2;

这稍微复杂一些，但提供了更多控制。这有两个部分。在第一部分中，映射器脚本将从以下位置接收数据：table并将其映射到字段 mp1 和 mp2。然后将这些传递给reduce_script，这个脚本将接收我们在键上指定的排序输出CLUSTER BY mp1. 请注意，一个减速器将处理多个键。减少脚本的输出将进入表someothertable

现在所有这些脚本都遵循一个简单的模式。他们将从标准输入中逐行读取。这些字段将是\t分隔，它们将以相同的方式写回标准输出（字段由 '\t' 分隔）

看看这个博客，有一些很好的例子。

http://dev.bizo.com/2009/07/custom-map-scripts-and-hive.html http://dev.bizo.com/2009/07/custom-map-scripts-and-hive.html

http://dev.bizo.com/2009/10/reduce-scripts-in-hive.html http://dev.bizo.com/2009/10/reduce-scripts-in-hive.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？的相关文章

Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
HIVE 执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我在创建配置单元数据库时收到以下错误 FAILED 执行错误从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
Hadoop：读取ORC文件并放入RDBMS中？

我有一个以 ORC 文件格式存储的配置单元表我想将数据导出到 Teradata 数据库我研究了 sqoop 但找不到导出 ORC 文件的方法有没有办法让 sqoop 为 ORC 工作或者有什么其他工具可以用来导出数据 Thanks
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
从 Eclipse 在 AWS-EMR 上运行 MapReduce 作业

我在 Eclipse 中有 WordCount MapReduce 示例我将其导出到 Jar 然后将其复制到 S3 然后我在 AWS EMR 上运行它成功地然后我读到了这篇文章 http docs aws amazon com El

随机推荐

CSS设置左固定右流体布局

我需要使用 html 和 css 这样的布局左侧宽度静态为 250px 右边是流动的对于屏幕的其他部分 100 250px 我尝试这样做我正在使用 sass wrapper width 100 margin 0 auto left w
自定义 android AccelerateDecelerateInterpolator

我正在尝试使用 AccelerateDecelerateInterpolator 并自定义它我可以看到像 DecelerateInterpolator 这样的插值器有一个因子字段因此您可以更改其行为但 AccelerateDece
为什么数组大小声明使用“1”作为第一个索引？

我注意到 C Java 的一个问题是目前对我来说与数组大小声明和数组大小的默认第一个索引似乎不一致的问题使用数组时假设您想创建一个新的整数数组大小3 它看起来像这样 int newArray new int 3 1 2 3 完全可以
iOS 开发中是否有与 Android 产品风格等效的概念？

我们利用 Android 中的产品风格将相同的代码置于源代码控制之下但根据所选风格有条件地将端点定位到开发质量保证生产服务器以供参考 http tools android com tech docs new build system
docker 1.6.0之后宿主机容器的rootfs在哪里

在 Docker 中v1 4 1 我们可以找到rootfs主机上的容器例如 cd var lib docker devicemapper mnt ab83a2638bb23f24d8811fa9b4ca458efca9269696ff31
如何检查 unix 脚本中某些字符串之间的字符串？

String email protected cdn cgi l email protection 检查 com My code if word then if word com word ca 我的问题 email protected c
抱歉，未实现：64 位模式未编译

这就是我想要做的在 Windows 7 64 位上 g m64 o main main cpp 我得到的错误是 Sorry unimplemented 64 bit mode not compiled in 我从这里安装了 mingw 6
在另一个类构造函数中初始化一个类对象

我是 C 新手嗯我有 box cpp 和 Circle cpp 文件在解释我的问题之前我想先给你解释一下它们的定义在盒子 cpp中 class Box private int area public Box int area in
“未定义”参数在函数定义中意味着什么[重复]

这个问题在这里已经有答案了我对 jQuery 插件进行逆向工程发现了一个特殊的函数定义 function myFunction value undefined 当然这可行但类似的声明 function myFunction valu
两个应用程序可以具有相同的捆绑包名称，但不同的捆绑包标识符吗？

如果两个应用程序具有不同的捆绑标识符但标题相同是否意味着它们将存储在真实设备中的同一位置捆绑包标识符必须是唯一的这意味着您不能在设备上安装两个具有相同捆绑包 ID 的应用程序产品名称不必是唯一的这很有意义因为很难避免意外的冲突
使用“模数”和“指数”通过 OpenSSL v3 创建 RSA 密钥在 Ruby on Rails 中不起作用

我有一个 RSA 公钥模数和指数字符串我想在 Ruby on Rails 中使用它们创建 OpenSSL PKey RSA 我尝试了三种不同的方式我认为我的环境有些混乱但是我无法发现它你有什么主意吗版本 ruby 3 2 1 2
C#：TurboBoost 激活时如何获取 Intel i 系列 CPU 的当前时钟速度

我知道有可能获得此信息 Intel 自己的 TurboBoost 侧边栏小工具似乎使用 ActiveX 控件来确定 TurboBoost 处于活动状态时 i3 i5 i7 CPU 的当前时钟速度但是我想在 C 中以编程方式执行此操作从
Azure VPN 错误找不到可与此可扩展身份验证协议一起使用的证书。（错误798）

我正在 Azure 中创建 VPN 并在以下位置创建自签名证书本地计算机个人证书颁发给 FQDN 名称是证书的名称受信任的根证书颁发机构证书从个人手动复制我已经在 Azure 中配置了 VPN 并且已下载并解压该 VPN 并
角度指令名称：只允许使用小写字母？

My code app directive abcabc function alert directive working but app directive abcAbc function alert directive not work
Django，如何生成没有模型的管理面板？

我正在构建一个相当大的项目基本上包括以下内容服务器1 冰基服务 Glacier2 用于会话处理允许访问 Glacier2 的防火墙服务器2 通过 Glacier2 提供 Ice 服务的 Web 界面读取公共通过 Glacier
有没有办法使用 Mercurial 存储库作为 Git 子模块？

我很高兴使用子模块来跟踪我的项目所依赖的所有库问题是我正在使用一个名为 core plot 的库它只有一个公共的 Mercurial 存储库我可能可以将它镜像到只读 Git 存储库中但这是我得到的最佳选择吗我看到 Mercuria
如何在 \leq 上方添加问号？

如何在小于或等于符号上方添加问号 leq 在乳胶中您可以使用stackrel begin equation 2 stackrel le 3 end equation end document 或者如果您使用amsmath包你可以使用o
AVCaptureDevice isFlashModeSupported 已弃用 iOS 10

我正在使用 AVCaptureDevice 的实例方法 isFlashModeSupported 如下所示 NSArray captureDeviceType AVCaptureDeviceTypeBuiltInWideAngleCamer
Istio 直接 Pod 到 Pod 通信

我在使用 Istio 部署的 Pod 与 Pod 进行通信时遇到问题我实际上需要它与 Istio 合作进行 Hazelcast 发现 https github com hazelcast hazelcast kubernetes issu
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案

Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？ 的相关文章

随机推荐

热门标签

Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？的相关文章