Hadoop/Hive Collect_list 不包含重复项

2024-03-06

根据该帖子，Hive 0.12 - Collect_list https://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates，我试图找到 Java 代码来实现 UDAF，该 UDAF 将完成此或类似的功能，但没有重复序列。

例如，collect_all()返回一个序列A, A, A, B, B, A, C, C我想要序列A, B, A, C回。连续重复的项目将被删除。

有谁知道 Hive 0.12 中的一个函数可以完成或已经编写了自己的 UDAF？

一如既往，感谢您的帮助。

不久前我遇到了类似的问题。我不想写一个完整的UDAF所以我只是做了一个组合砖房收集 https://github.com/klout/brickhouse/blob/master/src/main/java/brickhouse/udf/collect/CollectUDAF.java和我自己的UDF。假设你有这个数据

id  value
1   A
1   A
1   A
1   B
1   B
1   A
1   C
1   C
1   D
2   D
2   D
2   D
2   D
2   F
2   F
2   F
2   A
2   W
2   A

my UDF was

package com.something;

import java.util.ArrayList;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class RemoveSequentialDuplicates extends UDF {
    public ArrayList<Text> evaluate(ArrayList<Text> arr) {
        ArrayList<Text> newList = new ArrayList<Text>();
        newList.add(arr.get(0));
        for (int i=1; i<arr.size(); i++) {

            String front = arr.get(i).toString();
            String back = arr.get(i-1).toString();

            if (!back.equals(front)) {
                newList.add(arr.get(i));
            }
        }
        return newList;
    }
}

然后我的查询是

add jar /path/to/jar/brickhouse-0.7.1.jar;
add jar /path/to/other/jar/duplicates.jar;

create temporary function remove_seq_dups as 'com.something.RemoveSequentialDuplicates';
create temporary function collect as 'brickhouse.udf.collect.CollectUDAF';

select id
  , remove_seq_dups(value_array) no_dups
from (
  select id
    , collect(value) value_array
  from db.table
  group by id ) x

output

1   ["A","B","A","C","D"]
2   ["D","F","A","W","A"]

顺便说一句，内置collect_list不必按照它们分组的顺序保留列表的元素；砖房collect将要。希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop/Hive Collect_list 不包含重复项的相关文章

Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
当气流 initdb 时，导入错误：无法导入名称 HiveOperator

我最近安装了airflow对于我的工作流程在创建项目时我执行了以下命令 airflow initdb 返回以下错误 2016 08 15 11 17 00 314 init py 36 INFO Using executor Seque
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何使用 Amazon 的 EMR 在 CLI 中使用自定义 jar 指定 mapred 配置和 java 选项？

我想知道如何指定mapreduce配置例如mapred task timeout mapred min split size等等当使用自定义 jar 运行流作业时当我们使用 ruby 或 python 等外部脚本语言运行时我们可以使
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO

随机推荐

WSL (Ubuntu)：如何从 bash 终端在浏览器中打开 localhost

我正在尝试打开http localhost http localhost在 WSL bash 终端的任何浏览器中到目前为止我已经尝试过如何从 URL localhost 3000 的终端打开 Google Chrome https
iOS 的日志框架？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 iOS 是否有一个日志框架可以帮助开发人员诊断应用程序崩溃您可能喜欢伐木工人 https gith
Bootstrap 网格列相互重叠

我对 Bootstrap 的网格布局和其中的列重叠有疑问我不确定问题到底是什么任何建议将不胜感激谢谢 div class container div class row div class col md 6 img src conte
错误提示“.class 文件中的版本错误”

我使用了JSP代码并在tomcat5 5服务器下执行了相同的操作它工作被罚款现在我已经将相同的代码复制到其他系统的tomcat服务器下但是在提交该 jsp 文件时收到以下错误导致错误的原因可能是什么请指教 root cause
使 d3.js 可视化布局响应式的最佳方法是什么？

假设我有一个直方图脚本可以构建 960 500 svg 图形我如何使其响应以便调整图形宽度和高度是动态的
如何快速学习Java RMI [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 Java 应用程序我已经开发了一两年了我想创建一组非常简单的接口以后可能会增加复杂性我可以使用它从另一个 JVM 例
Jmeter - 如何向计数器添加前缀。类似于随机变量

目前在随机变量中我可以在变量的输出格式中添加前缀或后缀然而这个很好的功能不适用于简单的计数器控制器每次使用变量时连接 string counter 对我来说并不是一个好的选择因为我经常这样做有没有办法以随机变量的方式实现前缀
对内置数据类型使用前向声明

我明白只要有可能我们就应该使用前向声明而不是包含来加快编译速度我有课Person像这样 pragma once include
如何将 TWSocket 的 OnDataAvailable() 事件推送到 Delphi 6 应用程序中的后台线程？

我有一个 Delphi 6 应用程序它使用 ICS 组件套件进行套接字通信我有自己的服务器套接字 VCL 组件当新会话可用时它会创建客户端 TWSocket 套接字我创建的客户端套接字确实将 Multithreaded 属性设置为
如何一起使用SparkSession和StreamingContext？

我正在尝试从本地计算机 OSX 上的文件夹流式传输 CSV 文件我将 SparkSession 和 StreamingContext 一起使用如下所示 val sc SparkContext createSparkContext spa
我应该使用哪些 Maven 工件来导入 PowerMock？

我需要添加哪些罐子到我的pom xml让 PowerMock 与 Mockito 一起工作我有以下依赖项
Google.Apis.Requests.RequestError 需要登录 [401] 消息[需要登录] 位置

因此我从 Nuget 下载了 Cloud Storage 的 NET 客户端 Google Apis Storage v1 版本 1 8 1 10 使用开发人员控制台创建了一个项目生成了 API 密钥启用了计费创建了一个存储桶但是
如何绑定 ListBoxItem 的索引

我想将列表框项目的 z 索引绑定到它们的索引理想情况下我们会有
Clojure、方面、Defprotocol、Defrecord

defprotocol IAnimal IAnimal report o println type o reporting n inner report o println type o out n defrecord Dog IAnima
如何将 JSON 转换为 CSV 格式并存储在变量中

我有一个可以在浏览器中打开 JSON 数据的链接但不幸的是我不知道如何阅读它有没有办法使用 JavaScript 将这些数据转换为 CSV 格式并将其保存在 JavaScript 文件中数据如下 count 2 items title
纹理不绘制

我想在屏幕上绘制图像但我得到的是黑色方块但上面没有纹理图像路径正确并已加载因为矩形具有正确的大小我有一个单独的类用于加载名为 Texture 的纹理还有一个用于绘制名为 Sprite 的纹理的类这是代码 Class Textu
如何向用户请求联系人访问权限，然后建立并打开联系人？

好的我联系了我的手机除了两件事外它运行得很好首先它第一次失败因为它要求我访问联系人我怎样才能使它在用户授予对联系人的访问权限后添加它其次有没有办法打开联系人以便用户在建立后可以查看它这就是我所做的 IBAction a
使 HorizontalScrollView 的子级与屏幕一样大？

我解决这个问题的方法是为子视图创建一个自定义视图然后为自定义视图重写 onMeasure 新的 onMeasure 将宽度和高度设置为尽可能大问题是当你显示软键盘时and旋转手机随着方向的改变和键盘的显示 onMeasure 将最大
如何读取用户的单个字符？

有没有一种方法可以从用户输入中读取单个字符例如他们在终端按下一个键然后返回有点像getch 我知道 Windows 中有一个功能但我想要跨平台的功能以下是 ActiveState Recipes 站点的链接其中介绍了如何在 W
Hadoop/Hive Collect_list 不包含重复项

根据该帖子 Hive 0 12 Collect list https stackoverflow com questions 6445339 collect set in hive keep duplicates 我试图找到 Java 代码

Hadoop/Hive Collect_list 不包含重复项

Hadoop/Hive Collect_list 不包含重复项 的相关文章

随机推荐

热门标签

Hadoop/Hive Collect_list 不包含重复项的相关文章