根据列删除配置单元中的重复行

2024-03-30

我有一个包含 10 列的 HIVE 表，其中前 9 列将有重复的行，而第 10 列则不会，因为 CREATE_DATE 将具有创建日期。

例子：

如果我今天在表中插入 10 行，它将具有 CREATE_DATE 作为今天的日期。如果我明天再次插入相同的 10 行，它将具有不同的 CREATE_DATE，这会产生我使用 DISTINCT 的问题。

有没有办法删除基于 9 列的重复记录并忽略第 10 列。

示例：假设表中有 5 列。这是一个由 DAYID 和 MARKETID 分区的外部 HIVE 表。每当 CREATEDATE 以外的列（如第 1 行和第 2 行引用）相同，或者如果行重复（如第 3 行和第 4 行引用），则应保留这些行中的任何一行。保留哪个并不重要。

COL1 COL2 CREATEDATE   DAYID    MARKETID  
A     1    20131206   20131207 1234  
A     1    20131207   20131207 1234  
A     1    20131206   20131207 1234  
B     1    20131206   20131207 1234  
B     1    20131206   20131207 1234  
C     2    20131206   20131207 1234  
C     2    20131207   20131207 5678

输出 - -

COL1 COL2 CREATEDATE   DAYID    MARKETID
A     1    20131206   20131207   1234
B     1    20131206   20131207   1234
C     2    20131206   20131207   1234
C     2    20131207   20131207   5678

谢谢内茨

您可以执行以下操作：

select col1,col2,dayid,marketid,max(createdate) as createdate
from tablename
group by col1,col2,dayid,marketid

这样，您可以按除数据之外的所有列对数据进行分组，因此如果这些列中存在具有相同值的行，它们将位于同一组中，然后只需使用聚合函数“选择”您想要的创建日期如最大/最小等。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

根据列删除配置单元中的重复行的相关文章

将 Spark 设置为 Hive 的默认执行引擎

Hadoop 2 7 3 Spark 2 1 0 和 Hive 2 1 1 我正在尝试将 Spark 设置为配置单元的默认执行引擎我将 SPARK HOME jars 中的所有 jar 上传到 hdfs 文件夹并将 scala libr
Hive 将字符串转换为字符数组

例如如何将字符串转换为字符数组 abcd gt a b c d 我知道分割方法 SELECT split abcd a b c d 最后一个空格有错误吗或任何其他想法这实际上不是一个错误蜂巢分割功能 https github com
ClassNotFoundException：org.apache.spark.SparkConf 与配置单元上的 Spark

我正在尝试使用 SPARK 作为配置单元执行引擎但出现以下错误 Spark 1 5 0 已安装我正在使用 Hive 1 1 0 版本和 Hadoop 2 7 0 版本 hive emp表在 hive 中创建为 ORC 格式表 hive
Hive 函数替换列值中的逗号

我有一个配置单元表其中字符串列的值为 12 345 有没有什么方法可以在插入此配置单元表期间删除逗号的配置单元函数您可以使用regexp replace string INITIAL STRING string PATTERN stri
Hive 安装问题：Hive Metastore 数据库未初始化

我尝试在树莓派 2 上安装 Hive 我通过解压缩压缩的 Hive 包安装 Hive 并在我创建的 hduser 用户组下手动配置 HADOOP HOME 和 HIVE HOME 运行 hive 时出现以下错误消息蜂巢错误 Statu
向将数组作为字段之一的 Hive 表插入行时出现错误 10293

我使用以下查询创建了一个配置单元表 create table arraytbl id string model string cost int colors array
从hive中的子查询中获取值

我试图参数化配置单元中的值而不是在查询中对其进行硬编码下面是查询 select from employee where sal gt 30000 但我不需要使用硬编码的 30000 值而是需要来自相同的查询如下所示但我遇到了问题
如何在 ORC 分区 Hive 表的中间添加一列，并且仍然能够使用新结构查询旧分区文件

目前我在 Prod 中有一个分区 ORC 托管错误地创建为内部优先 Hive 表其中至少有 100 天的数据按年月日约 16GB 数据分区这个表大约有160列现在我的要求是在这个表的中间添加一列并且仍然能够查询旧数据
如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
如何根据“^P”分隔符分隔的数据构建 Hive 表

我的查询是 CREATE EXTERNAL TABLE gateway staging poll int total int transaction id int create time timestamp update time time
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
是否可以使用 impala 查询包含 DATE 类型列的 Hive 表？

每次我尝试在 IMPALA 中从 HIVE 中创建的表中选择 DATE 类型字段时都会收到 AnalysisException Unsupported type DATE 有什么解决方法吗 UPDATE这是从 hive 创建表模式和 im
在 IDEA 中运行 Spark on Hive 项目期间创建事务连接工厂时出错

我正在尝试为 Spark Streaming 项目设置一个开发环境该项目需要将数据写入 Hive 我有一个包含 1 个主设备 2 个从设备和 1 台开发机器的集群在 Intellij Idea 14 中编码在 Spark shell
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
在 HIVE 中，使用 COALESCE 将 Null 值替换为相同的列值

我想用同一列中的值替换特定列的空值我想得到结果我在下面尝试过 select d day COALESCE val LAST VALUE val TRUE OVER ORDER BY d day ROWS BETWEEN UNBOUNDED
我们可以预测 Hive SELECT * 查询结果的顺序吗？

是否有可能a的结果的顺序SELECT query no ORDER BY 如果使用相同的 DBMS 作为 Metastore 那么总是相同的吗所以只要使用MySQL作为Metastore 结果的顺序就为aSELECT 查询将始终相同如

随机推荐

构建 Java EE 6 项目时出现 FilerException

我在 Netbeans 7 中有一个 Java EE 6 项目当我在 IDE 中编译并启动它时该项目运行良好但是当我清理和构建项目时我得到了 java lang RuntimeException javax annotation
如何提高@patch和MagicMock语句的可读性和可维护性（避免长名称和字符串标识）？

在我的测试代码中我有很多样板表达式 Magic return 我还有很长的字符串来标识要模拟的函数的路径重构期间不会自动替换字符串我更愿意直接使用导入的函数示例代码 from mock import patch MagicMock
如何在远程存储库上运行 hg recovery 命令

在 teamcity 中运行构建时出现以下错误 Failed to collect changes error C Program Files TortoiseHg hg exe config ui interactive False pu
在 cakephp 中分配布局

我们可以在该特定控制器中为整个控制器定义一个布局吗我之前已经在应用程序控制器的过滤器之前用于此目的但它不再解决它所以我需要在控制器中应该有一些适用于的布局定义该控制器的所有操作 Regards use it 在你的行动中 this g
JavaScript - 对象字面量的优点

我读过我应该使用对象文字而不是简单地编写一堆函数对象字面量有什么优点有例子吗正如 Russ Cam 所说您可以避免污染全局命名空间这在当今组合来自多个位置 TinyMCE 等的脚本时非常重要正如 Alex Sexton 所
如何使用 WebApplicationFactory 覆盖 Autofac 容器中的服务

我正在使用 WebApplicationFactory 编写一些集成测试我使用 Autofac 作为我的依赖解析器在我的测试中我试图覆盖其中一项注册以便我可以模拟其中一项依赖项使用aspnetcore默认的ConfigureSer
如何将html5画布保存到服务器

我将一些图像加载到我的画布上然后在加载后我想单击一个按钮将该画布图像保存到我的服务器上我可以看到脚本工作正常直到它到达 toDataURL 部分并且我的函数停止执行我究竟做错了什么这是我的代码
Android View 背景意外变化

我正在构建一个具有大量屏幕的应用程序大多数屏幕的顶部都有一个带有背景颜色的视图我经常使用 view setBackgroundColor color 更改颜色奇怪的事情来了有时在设置一个视图的颜色后例如 f14fb7 在应用程序中
将阿拉伯数字转换为英语

我正在寻找一种将阿拉伯数字字符串转换为英语的方法数字字符串 0123456789 Private Sub Button1 Click ByVal sender As System Object ByVal e As System Eve
如何将多个局部变量传递给嵌套部分

这应该是非常简单且有据可查的我已经这样做了好几次了尽管有些事情仍然让我很烦恼我有一个调用嵌套部分的部分结构在某个时刻一render调用需要将额外的变量传递给部分尽管部分的渲染失败并显示 undefined local variab
Swing 菜单 Java 7 mac osx

我一直在 mac os x 上测试我的 Swing 应用程序它在小程序上运行当我在浏览器中运行此小程序时我注意到 JMenus JMenuItems 上的鼠标悬停无法正常工作这是一个重现该问题的小程序 package com mac
如何在 Sublime Text 中使用控制台

我正在使用 Sublime Text 2 来编写程序并希望在其中运行控制台来编译和运行它们有没有办法在 Sublime Text 2 中嵌入控制台命令行已经在那里了吗我同时使用 Windows 和 Linux 我想你可以尝试创建一个
推送事件不会触发推送路径上的工作流程

我目前正在测试 GitHub Actions 工作流程这个存储库 https github com GuillaumeFalourd poc github actions 我正在尝试使用这个工作流程 https github com Gui
禁止 (#403) - 你不能执行此操作 [Yii2]

我尝试添加菜单map在后端我用yii2 advanced 这是我的控制器代码 public function actionMap return this gt render map 但是当我尝试使用此网址访问它时http local
opencv中如何根据深度颜色分割连通区域

I have a picture like which i need to segment the picture into 8 blocks 我尝试过这种阈值方法 img gray cv2 imread input file cv2 IM
如何获得欧米茄(n)

我有公式 a n n a n 1 1 a 0 0 如果没有主定理我怎样才能从中得到 Omega Theta 或 O 表示法或者有人有一个很好的网站来理解解释马斯特定理甚至不适用所以不能使用它并不是太大的限制此处有效的方法是猜测上限
在 R 中：计算精确率/召回率曲线下的面积 (AUPR)？

假设我有两个矩阵 A代表标签矩阵 B代表A对应的预测概率矩阵现在我想根据矩阵A和B计算AUPR 精确率召回率曲线下的面积对于常见的AUC Area Under Precision Recall Curve ROC Curve R中有很
将多个预制件分配给一个只允许添加一个的脚本

我有一个脚本它使用 LeanTween 将对象预制放入预制路径上效果很好其工作原理是您可以将一个对象分配给附加有 Moveable 脚本的路径添加器 MoveController 但是我需要能够将运行时创建的新预制件添加到
使用 printf 在 c 中 fork() [重复]

这个问题在这里已经有答案了有 2 个不同的程序它们都很小例如 int main printf print hello fork int main printf print hello n fork 输出 1 是 print hello
根据列删除配置单元中的重复行

我有一个包含 10 列的 HIVE 表其中前 9 列将有重复的行而第 10 列则不会因为 CREATE DATE 将具有创建日期例子如果我今天在表中插入 10 行它将具有 CREATE DATE 作为今天的日期如果我明天再次插

根据列删除配置单元中的重复行

根据列删除配置单元中的重复行 的相关文章

随机推荐

热门标签

根据列删除配置单元中的重复行的相关文章