或者 Hive 中的 JOIN 错误当前不支持

2023-12-19

我正在 Hive 中运行一个查询，如下所示，并且在左连接中有 OR 条件。当我运行选择时，它会向我抛出一些错误消息。

OR 目前在 JOIN 中不支持（了解 OR 仅适用于 Hive 中的等值连接）
JOIN 'cre_timestamp' 中同时遇到左右别名

           a.line_id,
           a.seller,
           a.sellerid,
           a.sellername,
           a.item_no,
           a.item_cd,
           a.cre_timestamp
     from Table A
     left join Table B
     on translate(a.id,'0','') = translate(b.id,'0','')
     or translate(a.seller,'Z','') = translate(b.seller,'Z','')
     or (a.item_no=b.item_no and a.item_no is not null and a.item_cd is not null and a.item_no <> '' and a.item_cd <> '')
     left join ( select id, line_id,cre_timestamp from table x) C
     on a.id=c.id
     and a.cre_timestamp < c.cre_timestamp
     and a.cre_timestamp > date_sub(c.cre_timestamp,21)
     and translate(a.id,'0','') = translate(b.id,'0','') or a.item_cd = b.item_cd
    where a.seller is null

我们怎样才能克服这个问题呢？

#对于1：我可以尝试编写查询的一种方法是，使用 UNION，针对 OR 条件复制查询 3 次。

#For 2:

如果我把

and a.cre_timestamp < c.cre_timestamp
     and a.cre_timestamp > date_sub(c.cre_timestamp,21)

并将其带入where底部的条款，效果很好。（想了解为什么它在连接中不起作用）

总的来说，寻找一种更好的方法，不会影响运行时并且更优化查询，就好像我将其更改为使用UNION一样，它必须处理相同的查询3次，这会影响查询。

感谢您花时间调查此事。

我已经在这篇文章中尝试解释为什么非等（theta）连接在map-reduce框架中不起作用，这里不再重复，请阅读：为什么Hive不支持非等值连接 https://stackoverflow.com/a/64242637/2700344

现在，如果将非相等连接条件移至 where 子句，会发生什么：连接将仅使用相等条件进行工作，并且可能会产生一些重复，因为它可能是多对多连接。这些重复项将通过 WHERE 条件进行过滤。在最坏的情况下，如果根本没有相等条件，将执行 CROSS JOIN，这也很容易使用 MapReduce 框架实现，之后您可以过滤 where 中的行。过滤也很容易实现。

这是目前在 Hive 中实现 Theta-join 的唯一方法：在部分相等条件下使用重复连接（甚至交叉连接）加上过滤，这种方法会对性能产生显着的负面影响。但是，如果其中一个表足够小，可以容纳在内存中，则可以使用映射连接来补偿对性能的负面影响：

set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=1000000000; --small table size which can fit in memory, 
                                                 --adjust it and check Map Join operator in the plan

另外（这与问题无关）您的查询中有多余的条件：

(a.item_no=b.item_no and a.item_no is not null and a.item_cd is not null and a.item_no <> '' and a.item_cd <> '')

a.item_no is not null- 这里没有做任何有用的事情，因为 1) 该列已在相等连接条件中使用，并且未连接 NULL，2) 还有另一个条件a.item_no <> ''它排除了 NULL，因为如果值不等于空字符串，它也不能为 NULL，NULL 不能等于或不等于某些东西。

相同的冗余条件a.item_cd is not null因为你已经有了a.item_cd <> ''，这不允许 NULL。

因此，整个条件可以简化为：

(a.item_no=b.item_no and a.item_no <> '' and a.item_cd <> '')

是的，将查询拆分为两个或多个 + UNION 是解决 OR 连接条件问题的常见方法。如果你有一些常用的过滤器，你可以使用WITH子查询来补偿多次扫描整个表。使用不同的过滤器和连接条件 + UNION 或 UNION ALL 拆分数据集也有助于处理倾斜的连接键。如果您使用 Tez，则使用 WITH 子查询将允许读取一次表（在映射器上），并且所有其他顶点将读取映射器准备的相同结果，从而消除每次将中间结果写入持久性存储的情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

或者 Hive 中的 JOIN 错误当前不支持的相关文章

混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
如何在没有 EF 的 ASP.NET MVC 中使用普通 sql？

我有一个使用 linq to sql 的类如何在 ASP NET MVC 3 中使用普通 sql 而不使用 EF 来实现相同的功能 public ActionResult Index var List from c in db OFFIC
Postgresql 中的 id 列位置重要吗？

我正在测试删除主键列 id 的迁移我想使用外键作为主键当我运行并恢复迁移时我看到表的状态是相同的只是 id 列现在是最后一个它会以任何方式改变我的数据库的行为吗我是否应该费心去恢复迁移恢复代码中的列顺序理论上一切都应该没问题
使用绑定和空值命中 Oracle 索引的最佳查询

我有一个表该表在多个列上有一个索引其中许多列可以为空 CREATE UNIQUE INDEX UX MYTABLE A B C D E ON MYTABLE A B C D E 现在我在 C 代码中尝试检查该表并精确命中索引对于每个
(SQL) 识别字段中字符串格式多次出现的位置

我需要将叙述字段自由文本拆分为多行目前的格式如下 Case Reference Narrative XXXX XX 123456 Endless Text up to 50k characters 在作为文本的叙述字段中各个条目当
SQL Server PIVOT 函数

我有一个检索所有代理及其模块的查询结果集将每个模块返回 1 行 SELECT am agentID AS agentid pa agentDisplayName agentdisplayname m ModuleName ModuleNa
Quartz.NET 设置 MisfireInstruction

我正在使用 Quartz NET 在 C 中工作并且在 CronTrigger 上设置失火指令时遇到问题我正在运行安装了 Quartz DB 的 SQL 后端我有以下代码可以很好地创建作业和运行调度程序 IScheduler sch
SQL Server 相当于 MySQL 的 USING

在 MySQL 中当您连接不同表中具有相同名称的列时可以在连接中使用关键字 USING 例如这些查询产生相同的结果 SELECT FROM user INNER JOIN perm USING uid SELECT FROM user
消息 102，级别 15，状态 1，第 1 行“ ”附近的语法不正确

我试图从临时表中查询但不断收到此消息 Msg 102 Level 15 State 1 Line 1 Incorrect syntax near 有人能告诉我问题是什么吗是因为要转换吗查询是 select compid 2 conve
SQL Server 转换选择一列并将其转换为字符串

是否可以编写一条从表中选择列并将结果转换为字符串的语句理想情况下我希望有逗号分隔的值例如假设 SELECT 语句看起来像这样 SELECT column FROM table WHERE column lt 10 结果是一列包含值的
如何通过循环变量在 dbt 中多次运行 SQL 模型？

我有一个 dbt 模型测试模型接受地理变量 zip state region 在配置中我想通过循环变量来运行模型三次每次使用不同的变量运行它问题是我有一个如下所示的宏它将变量附加到输出表名称的末尾即运行测试模型 with z
从一个sql服务器选择到另一个sql服务器？

我想将一台服务器 Data Old S1 中的一个表 T1 在 DB1 中中的数据选择到另一台服务器 Data Latest S2 中的另一个表 T2 在 DB2 中中的数据我怎样才能做到这一点请注意服务器的命名方式查询也应该考虑
SQLSTATE[HY000] [2002] 资源暂时不可用 - mysql - innodb 和 pdo

在我的错误日志中得到大量结果如下所列数据库中的所有表都是 innodb 并且就与这些表的任何交互而言一切都是带有准备好的语句的 pdo 正如我所说所有错误几乎与下面列出的错误相同但发生在几个不同的页面上无论页面如何错误行始终指
与 FOREIGN KEY 约束冲突

我有两张桌子学术界 CREATE TABLE dbo R ACADEMIE ID ACADEMIE dbo IDENTIFIANT NOT NULL LC ACADEMIE CODE dbo LIBELLE COURT NOT NULL
如何在 SQLite 中获取最后插入的 ID？

SQLite 中是否有任何内置函数可以获取最后插入的行 ID 例如在 mysql 中我们有LAST INSERT ID 这种功能对于 sqlite 任何可用于执行相同过程的函数请帮我 Thanks SQLite 这可以使用SQLite
SQL 插入失败 - 违反主键约束

我在 SQL Insert 语句中看到一个非常奇怪的问题我有一个简单的表带有一个 ID 和 2 个日期时间请参阅下面的创建脚本 CREATE TABLE dbo DATA POPULATION LOGS ID int IDENTITY
当我输入 dateadd 或 datediff 代码时，我总是收到此错误“ORA-00904“DATEADD”无效标识符。”

我有一个大学项目并且有一个包含入院和出院日期属性的患者表我需要删除超过 7 年的记录我使用了以下代码 delete from patient where dis date gt datedadd yy 7 getdate 我收到错误
如何将整行（在 SQL 中，而不是 PL/SQL 中）传递给存储函数？

我遇到以下非常简单问题我想编写一个 Oracle SQL 查询大致如下 SELECT count MyFunc MyTable FROM MyTable GROUP BY MyFunc MyTable 在 PL SQL 中可以使用
按两列的最小值排序

I use SQL Server 2008 R2 我需要按两列的最小值对表进行排序该表如下所示 ID integer Date1 datetime Date2 datetime 我希望我的数据按至少两个日期排序以这种方式对该表进行排序的
如何将 SQL“LIKE”与 LINQ to Entities 结合使用？

我有一个文本框允许用户指定搜索字符串包括通配符例如 Joh Johnson mit ack on 在使用 LINQ to Entities 之前我有一个存储过程该存储过程将该字符串作为参数并执行以下操作 SELECT FROM T

随机推荐

如何检查对象值是否在manytomany字段中？

如何检查值是否在manytomany字段中我正在尝试做这样的事情 if value in object1 followers BLA BLA BLA But ManyRelatedManager is not iterable 那么正确的
Django 管理员：“删除”操作忽略了 has_delete_permission

假设我有一个模型其中 ID 为 1 的行很特殊不应该被删除但所有其他行都可以删除这是我实现该逻辑的尝试模型 py from django db import models class Widget models Model nam
将 Bootstrap 数据表的所有行导出到 Excel

我在将 Bootstrap 数据表行导出到 Excel 时遇到问题为了将数据导出到 Excel 我使用了一个名为的外部插件jquery table2excel js 导出数据表到excel的代码如下
npm 发布导致“错误：EPERM：不允许操作，取消链接...”，errno -4048

我正在尝试发布我的 NPM 包 npm publish 我收到以下非常神秘的错误 npm ERR path c Temp npm 20936 b98f84c8 tmp fromDir 02dd5394 package tgz npm ERR
在 Swagger/PHP 中，如何使参数在某些情况下是可选的，但在其他情况下是必需的？

我正在使用 Swagger 记录 PHP REST API 所以我定义了我的数据模型我当前的问题是某些字段的所需状态因不同的请求类型而异我的模型如下所示 SWG Definition required firstName lastNa
如何取消订阅 forkJoin 返回的 Observable？

在我的 Angular2 typescript 应用程序中只有在所有并行 HTTP 调用完成后我才使用 forkJoin 返回 Observable Issue 订阅回调无限期地持续执行这是我的代码 http service impo
在 snapSVG 中获取 SVG 容器大小？

创建纸张对象后使用 SnapSVG 获取其大小的正确方法是什么我的 HTML 看起来如下 div style width 100 height 100px div 然后是 JavaScript 代码 function initVie
AttributeError：类型对象“用户”没有属性“名称”

我是石墨烯新手我有这个 from django contrib auth models import User class UserType DjangoObjectType class Meta model User 基本上使用 Dj
包装函数并保留输入和返回类型？

是否可以包装这样的函数并保留类型 const example alpha string string gt alpha beta const wrappedFn fn Function gt fn 我怎样才能从中提取类型fn并返回与传入函数
在node.js中导入sql文件并针对PostgreSQL执行

我正在寻找一种有效的方法来获取原始 sql 文件并针对 postgres 数据库同步执行它类似于运行它psql 我有一个 sql 文件它创建所有数据库导入数据等我需要使用 node js 执行此操作但找不到任何自动执行此操作的模块
使用 SVG 作为可缩放纹理

一般来说我对 Three js 和 WebGL 很陌生我正在尝试制作一个简单的 3D 地球仪并在其上应用 SVG 纹理这样我就可以在不损失质量的情况下放大我尝试加载 svg 图像而不是 png 图像我工作了但图像被光栅化消
如何在 C# 中使用 SMO 列出 SQL Server 的可用实例？

谁能解释一下我在下面的代码中做错了什么 DataTable dt SmoApplication EnumAvailableSqlServer true Server sr new Server Test foreach DataBase d
如何使用 Python 通过 binance API 获取加密货币的所有价格历史记录？

我一直在使用此脚本通过 Binance API 和此脚本获取某些加密货币的价格 https steemit com python marketstack how to download historical price data from
如何在Python中将字符串转换为标题大小写？

例子 HILO gt Hilo new york gt New York SAN FRANCISCO gt San Francisco 是否有库或标准方法来执行此任务为什么不使用title http docs python org lib
多结构切换？

假设我有一个应用程序接收两种不同格式的 json 数据 f1 pointtype type1 data col1 val1 col2 val2 f2 pointtype type2 data col3 val3 col3 val3 我有一个
Selenium 上传文件：找不到文件 [docker]

我有以下使用硒上传图像的方法 public static void uploadSampleImage StaticSeleniumDriver driver File file new File System getProperty us
Google Auth 在 Visual Studio 中运行，但在部署到 IIS 时挂起

我正在与Google Net 客户端库 https github com google google api dotnet client 它的工作方式是当用户想要向 Google 进行身份验证时库会生成一个新网页供用户进行身份验证 Sy
如何在 Material UI 中为 Textfield 类型日期设置“min”属性？

看来可以设置最小归因Input https developer mozilla org en US docs Web HTML Element input date输入日期是否也可以设置最小归因文本域 https material ui
为什么返回“NotReady”后没有重复调用“Future::poll”？

考虑下面的代码 extern crate futures v0 1 old use std sync atomic Arc use futures struct F Arc
或者 Hive 中的 JOIN 错误当前不支持

我正在 Hive 中运行一个查询如下所示并且在左连接中有 OR 条件当我运行选择时它会向我抛出一些错误消息 OR 目前在 JOIN 中不支持了解 OR 仅适用于 Hive 中的等值连接 JOIN cre timestamp 中同时

或者 Hive 中的 JOIN 错误当前不支持

或者 Hive 中的 JOIN 错误当前不支持 的相关文章

随机推荐

热门标签

或者 Hive 中的 JOIN 错误当前不支持的相关文章