hive 版本 0.13.1 中的性能问题

2024-01-06

I use AWS-EMR http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_SupportedHiveVersions.html运行我的 Hive 查询，但在运行 hive 版本 0.13.1 时遇到性能问题。

新版本的 hive 运行 10 行数据大约需要 5 分钟。但是 230804 行的相同脚本需要 2 天并且仍在运行。我应该如何分析和解决问题？

样本数据：

Table 1:

hive> describe foo;
OK
orderno    string
Time taken: 0.101 seconds, Fetched: 1 row(s)

表1的示例数据：

hive>select * from foo;        
OK
1826203307
1826207803
1826179498
1826179657

Table 2:

hive> describe de_geo_ip_logs;
OK
id          bigint                                      
startorderno        bigint                                      
endorderno          bigint                                      
itemcode                int                                         
Time taken: 0.047 seconds, Fetched: 4 row(s)

表 2 的示例数据：

hive> select * from bar;

127698025   417880320   417880575   306
127698025   3038626048  3038626303  584
127698025   3038626304  3038626431  269
127698025   3038626560  3038626815  163

我的查询：

SELECT b.itemcode
FROM foo a,  bar b
WHERE a.orderno BETWEEN b.startorderno AND b.endorderno;

在 Hive 日志输出的最顶部，它指出“警告：阶段 'Stage-1 Mapred' 中的 Shuffle Join JOIN[4][Tables a, b] 是叉积。”

编辑： “叉积”或笛卡尔积是无条件的联接，它针对“a”表中的每一行返回“b”表中的每一行。因此，如果您以“a”为 5 行、“b”为 10 行为例，您将得到乘积，即 5 乘以 10 = 返回 50 行。对于一个或其他表来说，会有很多行完全为“空”。

现在，如果您有一个包含 20,000 行的表“a”，并将其连接到另一个包含 500,000 行的表“b”，那么您要求 SQL 引擎返回一个包含 10,000,000,000 行的数据集“a, b”，然后对 1000 万行执行 BETWEEN 操作。

因此，如果您删除“b”行的数量，您会发现您将获得比“a”更多的好处 - 在您的示例中，如果您可以过滤 ip_logs 表（表 2），因为我猜测它有比您的订单号表更多的行，它将减少执行时间。结束编辑

您通过不指定连接条件来强制执行引擎处理笛卡尔积。它必须一遍又一遍地扫描表a的所有内容。如果有 10 行，就不会有问题。有了 20k，您就会遇到数十次 Map/Reduce 波。

尝试这个查询：

 SELECT b.itemcode
 FROM foo a JOIN bar b on <SomeKey>
 WHERE a.orderno BETWEEN b.startorderno AND b.endorderno;

但我无法确定您的模型将允许加入哪个列。也许这个表达式的数据模型可以改进？可能只是我没有清楚地阅读示例。

无论哪种方式，您都需要在 where 子句之前过滤比较次数。我在 Hive 中完成此操作的其他方法是使用较小的数据集创建视图，并连接/匹配视图而不是原始表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive 版本 0.13.1 中的性能问题的相关文章

将密钥对添加到现有 EC2 实例

我被给予AWS控制台访问正在运行 2 个实例的帐户但我无法关闭在生产中但是我想获得对这些实例的 SSH 访问权限是否可以创建一个新的密钥对并将其应用到实例以便我可以通过 SSH 访问获取现有的pem当前无法选择创建实例所用的密
AWS CodePipeline 构建缺少 Git 历史记录

Context 我设置了一个 CodePipeline 它使用 CodeCommit 和 CodeBuild 作为其源和构建阶段我的构建包括一个插件 com zoltu git versioning 使用 Git 提交历史记录来动态创建构
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
在 Serverless Framework 1.0 中使用路径参数

我想使用路径参数 customer customerId of a GET请求以使用 AWS Lambda 查询客户 functions createCustomer handler handler createCustomer event
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
在 ec2 上托管 Rails

我想将 Rails 部署到亚马逊 ec2 上我看过 poolparty 和 ec2onrails 但似乎都不再维护了人们用什么来做到这一点都是自制的木偶和卡皮斯特拉诺还是有一个项目可以让我继续下去我可以推荐两个项目如果您有一个
AWS Elastic Beanstalk 一次也不会部署我的 Rails 应用程序

我目前正在使用 Ruby 2 6 running on 64bit Amazon Linux 2 3 0 2 图像并通过查看EC2实例内部的 var logs eb engine log eb logs 命令不会 t 告诉我这个反复出现
如何在PHP中将图像从内存上传到AWS S3？

所以我目前有一个使用 AWS S3 上传图像的上传系统这是代码 Upload image to S3 s3 Aws S3 S3Client factory array key gt mykey secret gt myskey try s
如何在 Elastic Beanstalk 上添加 PATH

我想将 PATH 添加到包上eb deploy 软件包安装到 var www html vendor bin 可以通过SSH手动添加但是如何使用配置文件添加PATH 我有这样的配置文件 ebextensions ec2 config 01
AWS S3 上传的图像已损坏

我正在 AWS ec2 ubuntu 机器上工作我的代码在 cakephp 中当我尝试将任何图像上传到 AWS S3 时它都会损坏虽然它在核心 php 代码中运行良好这是我的控制器代码 if this gt User gt sav
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
为什么我会收到 ElasticBeanstalk::ExternalInitationError？

我的应用程序基于 RubyOnRails 构建并使用乘客部署为弹性 beanstalk 应用程序我尝试向 nginx 服务器添加标头并重新启动它这是我的配置文件是 aws elastic beanstalk 中 ebextensio
如何测试 jest Node JS 中 AWS 内置方法中使用的 .promise() 方法

我想对其进行完整的单元测试下面给出了我的函数的代码 function js async function sesSendEmail message var ses new aws SES apiVersion 2020 12 01 var
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
如何在AWS中从快照创建Windows实例

我的公司想要在 Amazon Web Service 中拍摄窗口的每日快照我们可以毫无问题地拍摄快照但是当我尝试从快照创建实例时它总是创建一个 Linux ami 所以当服务器启动时它总是无法通过健康检查是否可以从快照创建 Win
cloudfront 响应状态为 413（请求实体太大）

我们需要发送大量数据作为 URL 的一部分 Angular 将读取该数据以呈现页面网址超过 10000 个字符但 cloudfront 返回以下错误错误的请求由 cloudfront CloudFront 生成请求 ID I2fOA

随机推荐

当应用程序在后台时，android O 中的 onMessageReceived 不会被调用

我正在从我的服务器发送数据有效负载通知这是示例 url https fcm googleapis com fcm send to userToken data some json here 通过这种方式即使应用程序没有运行我也可以在所
内省和反思有什么区别？

任何人都可以从语言环境不可知论的角度解释这两个概念之间的区别吗编程语言是否需要满足一组条件才能进行反思和或内省如果有的话这些条件是什么维基百科文章 http en wikipedia org wiki Type introspe
更新错误“模块”对象不可调用后，pip 不再工作

pip 更新后 pip 已完全停止工作 Z gt pip install matplotlib Traceback most recent call last File c program files python37 lib runpy
在 U-Boot 中使用 I2C 读取多个字节

我的 Freescale p1022tw 板的 I2C 驱动程序有问题 U Boot 的控制台上有一个从 I2C 设备读取的命令 i2c md chip address 0 1 2 of objects 当我从 id 为 0x60 地址为
为什么使用 Object.create() 和 console.log() 时不显示属性？

当我使用文字语法创建对象时将对象打印到控制台会显示该对象foo和p财产 foo foo p 42 console log foo console log foo p Outputs p 42 当我使用 Object create 语法时
SWI序言中#=和=:=有什么区别

What is the difference between and in SWI prolog I have found the definition from SWI prolog but still confused about it
php 析构函数在流畅的界面下调用得太早

我发现 php 析构函数有一个非常奇怪的事情基本上我有一个数据库管理类它使用工厂加载适配器来定义应该加载哪个适配器 mysql mysqli等我只会写下代码中有趣的部分因为类本身更长但代码不涉及当前的麻烦该问题仅发生在 mysq
从 git 中删除但保留在工作目录中

我添加了一堆要由 git 跟踪的文件但它们被错误地添加并提交它们应该存在于工作目录中它们是我的 IDE 使用的临时文件但不被 git 跟踪我现在已经创建了一个 gitignore 文件并添加了适当的条目但是将文件从 git 跟
KnexJS 迁移及相关种子数据

我在学习 BookshelfJS KnexJS 从 SequelizeJS 切换的过程中遇到了将数据导入到通过 KnexJS 中的迁移功能创建的多个表中的问题有4张桌子 servers operating systems applica
点击特定选项卡即可获取对应的详细信息

html部分 div class tab content div class tab pane active div class row fluid div class span9 offset1 div div div div
如何从网页访问 Dialogflow V2 API？

我有一个网页我想在其中使用对话流聊天机器人这是一个自定义聊天窗口因此我不想使用一键集成我能够访问聊天代理V1 API使用 javascript ajax 通过传递客户端访问令牌在请求标头中但我不知道该怎么做V2 API 我不清楚对
Android内部存储和本地目录中的文件

Android 为您提供 getDir 我认为这意味着我将拥有 myappspace somedirectory 来在您的应用程序空间中创建一个目录但是当 android 给你一个错误时如果你在 openFileOutput Inpu
使用 Altair 对标准化堆积条形图进行排序

我正在尝试根据特定顺序对标准化堆积条形图进行排序我想要按此顺序排序的堆叠条 Order dict Paid work 1 Education 2 Sleep 3 Other unpaid work 4 Housework Shopping
SAS数字到字符的转换？

当我们将数字转换为字符时我们应该使用如下的数字格式 data test prodID 001 result put prodID 1 run proc print run 我也尝试过使用字符格式 1 而且它也有效 data test pr
为什么我的 React 组件没有随着状态更新而更新？

我构建了一个地图应用程序需要在按下按钮后显示消失一些地图图标但当我从其父组件传递新的运动属性时我不知道如何将其设置为重新渲染组件父加载组件
Mysql 中使用 select where 查询区分大小写

嗨我正在使用 Java 前端和 Mysql 后端其实在tbl test包含 name value abc 22 xyz 14 ABC 32 xyZ 4 ABc 4 在java中我尝试检索abc的值于是写了一段代码 ResultSet r
pandas 将数据帧转为 3D 数据

似乎有很多可能性可以将平面表数据转换为 3d 数组但我不知何故找不到一种有效的方法假设我有一些带有 columns name type date 的数据价值当我尝试通过 pivot index name columns type da
CSS 截掉输入框的末尾

老天爷为什么我的输入框右侧被切掉了我研究了 chrome 中的填充和边距但看不出是什么原因造成的我对此很陌生但这仍然是一个谜 http jsfiddle net GCt3z 1 http jsfiddle net GCt3z 1
DoctrineExtensions 软删除

我正在使用 Doctrine2 设置 symfony2 并且我想使用 DoctrineExtensions Gedmo 我遵循了每一步大多数都在工作但我无法找到需要更改的配置文件 SoftDeleteable 可以工作 https gi
hive 版本 0.13.1 中的性能问题

I use AWS EMR http docs aws amazon com ElasticMapReduce latest DeveloperGuide UsingEMR SupportedHiveVersions html运行我的 Hi

hive 版本 0.13.1 中的性能问题

hive 版本 0.13.1 中的性能问题 的相关文章

随机推荐

热门标签

hive 版本 0.13.1 中的性能问题的相关文章