Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

2024-03-22

我正在运行配置单元查询，如下所示

Select count(*),group_name from table_name group by group_name;

状态：正在运行（在应用程序 ID XXXX 的 YARN 集群上执行）

--------------------------------------------------------------------------------
        VERTICES      STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED  KILLED
--------------------------------------------------------------------------------
Map 1 ..........   SUCCEEDED     54         54        0        0       0       0
Reducer 2 ......   SUCCEEDED     13         13        0        0       0       0
--------------------------------------------------------------------------------
VERTICES: 02/02  [==========================>>] 100%  ELAPSED TIME: 24.93 s
--------------------------------------------------------------------------------
OK
Result
Time taken: 26.786 seconds, Fetched: 10 row(s)

当涉及映射缩减时，上述时间看起来很准确。但是当我运行如下简单查询时

select group_name from table_name

耗时：0.771 秒，获取：14 行

上面的时间不正确。

此外，任何如何更准确地测量查询时间的想法都将不胜感激。

提前致谢

从 shell 脚本测量时间。有time命令。

致电您的hive像这样的命令：

time hive -e 'select group_name from table_name;'

time 命令输出 3 次：real, user and sys

real        0m0.007s
user        0m0.000s
sys         0m0.005s

Real您可能想知道什么。Real是挂钟时间 - 从通话开始到结束的时间。这是所有经过的时间，包括其他进程使用的时间片和进程阻塞的时间（例如，如果它正在等待 I/O 完成）。

另请参阅这个问题：如何从“time”命令获取实时值？ https://stackoverflow.com/q/3795470/2700344

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确的相关文章

Hive “alter table <表名称> 连接”如何工作？

I have n large 我想要合并的小尺寸 orc 文件的数量k small 大型 orc 文件的数量这是使用完成的alter table table name concatenateHive 中的命令我想了解 Hive 是如何实
如果行数超过 15，则向表中插入与打开行数相等的行数

My table id sum type 1 3 1 1 6 1 1 6 2 1 3 1 1 3 1 1 6 1 These 1 3 1 是空行类型始终为 1 总和可以不同 These 1 6 2 是封闭的行输入 1 sum 空行的总和
在 HIVE 中选择该月的第一天

我正在使用 Hive 它与 SQL 类似但对于 SQL 用户来说语法可能略有不同我看过其他的stackoverflow 但它们似乎在SQL中具有不同的语法我试图通过此查询获取该月的第一天这给了我今天的一天例如如果今天是 2015
Apache Hive - 复杂数据类型映射不起作用

蜂巢版本2 1 1 问题描述集合项终止值作为映射键插入蜂巢表 CREATE TABLE profiles id int name struct
将 Hive 表导出到 hdfs 中的 csv

我知道在 Hive 中将表保存到 csv 或其他文本文件时分隔符存在一个已知问题所以我想知道你们是否可以帮助我解决这个问题我有一个现有的表表 A 我想将其以 csv 格式保存到 hdfs 通过阅读其他回复我相信我必须首先创建一个
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2
如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
是否可以使用 impala 查询包含 DATE 类型列的 Hive 表？

每次我尝试在 IMPALA 中从 HIVE 中创建的表中选择 DATE 类型字段时都会收到 AnalysisException Unsupported type DATE 有什么解决方法吗 UPDATE这是从 hive 创建表模式和 im
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
在 IDEA 中运行 Spark on Hive 项目期间创建事务连接工厂时出错

我正在尝试为 Spark Streaming 项目设置一个开发环境该项目需要将数据写入 Hive 我有一个包含 1 个主设备 2 个从设备和 1 台开发机器的集群在 Intellij Idea 14 中编码在 Spark shell
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
hive创建表的多个转义字符

我正在尝试将带有管道分隔符的 csv 加载到配置单元外部表数据值包含单引号双引号括号等使用 Open CSV 版本 2 3 测试文件 csv id name phone 1 Rahul 123 2 Kumar s 456 3 Nee
当从 HDFS 手动删除分区数据时，如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么如果新的分区数据被添加到HDFS 不执行alter table添加分区命令然后我们可以通过执行命令 msck Repair 来同步元数据如果从HDFS中删除了大量分区数据没有执行alter t
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker

随机推荐

验证 Tensorflow 流中是否存在该文件。使用 tf.gfile.Exists 以字符串张量作为输入

使用 Tensorflow 我试图在读取文件之前验证文件是否存在tf read file filename 不幸的是按照我的管道的设置方式我正在使用以下命令动态生成文件名字符串tf命令我使用生成文件名字符串tf string join
跟踪 XWindow 协议

是否可以使用工具跟踪 XWindow 协议我认为wireshark将是一个很好的框架来承载这样的想法但似乎没有支持为了实现这个目标应该做什么 Wiresharkdoes具有剖析X Window协议的能力但是您首先必须能够捕获 X
用于多个 Maven 模块项目的 proguard

我在多模块 Maven 项目中有一个对 proguard 的插件引用我的项目的功能已经过全面测试并且可以工作直到我添加 proguard 我的项目的结构 parent pom module a pom module b pom test
Maven - 添加集成测试

尝试将 Maven 构建中的测试拆分为单元测试和集成测试我正在使用故障安全插件来运行集成测试并尝试使用 build helper maven plugin 从 src it java 目录添加集成测试当我尝试进行构建时出现错误但我看
复制Mysql数据库的数据库结构

我正在使用 MySql 5 1 数据库我创建了一个项目数据库模板数据库并希望每次用户创建新项目时从应用程序创建同一数据库的副本如何复制并创建相同结构的新数据库这样做的命令是什么如果您只想将表结构等从一个数据库复制到另一个数据库
WooCommerce 中的多个订单

我想在类别页面中按平均评分 DESC 然后按价格 ASC 订购产品 id avgrating price 1 4 10 2 4 5 3 5 7 顺序 3 2 1 所以我尝试了 args meta key wc average rating
Flex：跨分辨率应用

What is the best way to create applications in Flex AIR which look and feel the same irrespective of the screen resoluti
Django 接受一个整数到 CharField 中

我正在学习 django 并创建了一个Page form class像这样 from django import forms class Page forms Form title forms CharField max length 20
如何让我自己的 JavaScript 函数具有必需的参数？

当我在intellij idea中编写javascript时我可以检查我正在调用的函数的参数它会显示类似的内容我不确定这是否是一个 intellij 功能它了解标准库或者它是否是一个 javascript 功能可以让您将参数标记
FabricJS 触摸平移/缩放整个画布

我需要在 FabricJS 画布上启用触摸缩放平移有些库允许在图像上执行此行为请参阅捏缩放画布 https github com vash15 pinch zoom canvas 或通过鼠标单击事件参见这个小提琴 http jsfi
如何保持每 5 秒请求一次页面而不耗尽电池电量？

我正在开发的 Android 应用程序需要每 5 秒在我的服务器上请求一个页面但我担心这会消耗大量电池有没有更简单的方法我当前的方法是每 5 秒循环一次的服务 protected void onHandleIntent Intent
如何使用 extern 在 C++ 中的源文件之间共享 Globe 变量？

IDE 代码块 13 12 main cpp include
python继承：使用参数选择父类

我在设计一些课程时遇到困难我希望我的用户能够通过传递角色类型的参数例如战士向导来使用Character 类虚拟代码 class CharClass def init self level self level level clas
在 MSTest 中如何查找要在 ClassInitialize 或 AssemblyInitialize 中运行的测试总数？

使用 MStest 我想查找排队等待运行的测试方法的总数我应该如何捕获这个值ClassInitialize or AssemblyInitialize 方法我唯一得到的是 TestContext 它没有测试总数的详细信息我实际上对此有
在 awk 中使用双引号[重复]

这个问题在这里已经有答案了该命令将打印a echo line1 a b c awk print 2 如果我将单引号更改为双引号就像这样它将打印整行 echo line1 a b c awk print 2 为什么我知道我应该使用单引
如何为给定模式提供关系代数？

员工姓名街道城市作品人名公司名称工资公司公司名称城市管理人员姓名经理姓名查找此数据库中所有不为第一银行公司工作的员工的姓名假设所有人都为一家公司工作并且允许人员出现在数据库中例如在员工中但不能出现在作品
es6模块加载是如何工作的

我去过reading https github com systemjs systemjs about https github com systemjs systemjs ES6模块加载器 https github com ModuleL
对于异步Task，为什么需要Wait()来捕获OperationCanceledException？

我正在遵循示例代码here http msdn microsoft com en us library dd997396 aspx了解异步任务我修改了代码以编写任务工作与主要工作的一些输出输出将如下所示我注意到如果删除 Wait 调
在 F# 中表示错误的最惯用方式是什么

我正在开发 F 项目我想知道使用返回域错误的最佳实践是什么Result输入 F 我认为有几种方法可以做到这一点继承的异常 type DomainException message inherit Exception message ty
Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

我正在运行配置单元查询如下所示 Select count group name from table name group by group name 状态正在运行在应用程序 ID XXXX 的 YARN 集群上执行 VERTICES

Hive 命令行 如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

Hive 命令行 如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确 的相关文章

随机推荐

热门标签

Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确

Hive 命令行如果不是在后台执行 MapReduce 作业，则选择查询所花费的时间不正确的相关文章