HiveQL

如何连接 HIVE 中的两个表。

我有两个表 A 和 B 它们都具有以下结构 Table A Name Age actualdate no Table B City sdate edate id 我希望使用 JOIN 获取 A 和 B 中的所有字段其中 id no 且 s

join Hadoop hive HiveQL

hiveconf 变量可以从文件加载吗？（与 HiveQL 文件分开）

我经常有一大块 HiveQL 我想使用某些变量的不同设置来运行多次一个简单的例子是 set mindate 2015 01 01 00 00 00 set maxdate 2015 04 01 00 00 00 select from m

Hadoop hive config HiveQL hiveconfiguration

如果滞后中使用的列具有相同的值，则在使用滞后函数时分配相同的值

我有一个sql表内容如下 pk from d to d load date row num 111 2019 03 03 2019 03 03 2019 03 03 1 111 2019 02 02 2019 02 02 2019 02

sql hive HiveQL

如何使用 hive 上下文有效地查询 Spark 中的 hive 表？

我有一个 1 6T Hive 表其中包含时间序列数据我在用Hive 1 2 1 and Spark 1 6 1 in scala 以下是我的代码中的查询但我总是得到Java out of memory error val sid da

scala Hadoop apachespark hive HiveQL

分解（转置？）Spark SQL 表中的多列

我正在使用 Spark SQL 我提到它在 Spark 中以防影响 SQL 语法我还不够熟悉无法确定并且我有一个正在尝试重新构造的表但我尝试同时转置多列时遇到困难基本上我的数据看起来像 userId someString var

sql apachespark apachesparksql HiveQL

Hive SELECT 语句创建结构数组

我在 Hive 中选择结构数组时遇到问题我的源表如下所示 field id fieldid fieldlabel fieldtype answer id unitname 这是调查数据其中id是调查id 中间的四个字段是响应数据 uni

Arrays struct hive HiveQL

Hive group by 和 count(distinct) 中的减速器数量

有人告诉我 count distinct 可能会导致数据倾斜因为只使用了一个减速器我使用一个包含 50 亿数据的表和 2 个查询进行了测试 Query A select count distinct columnA from table

Hadoop hive MapReduce HiveQL hiveconfiguration

如何创建列类型为 Timestamp 的外部 Hive 表

我想从 HDFS 中包含纪元的文本文件创建外部 Hive 表假设该文件位于 user me test txt 这是文件内容 1354183921 1354183922 我安装了 Hive 0 8 1 并且应该能够使用 Timestamp

timestamp hive HiveQL

Hive - 可以提取常见选项以便在其他脚本中重用吗？

我有两个 Hive 脚本如下所示脚本A SET hive exec dynamic partition true SET hive exec dynamic partition mode non strict SET hive exec

sql hive HiveQL hiveconfiguration

使用 HiveQL 分解结构数组

CREATE TABLE IF NOT EXISTS Table2 USER ID BIGINT PURCHASED ITEM ARRAY

sql hive HiveQL

hive 中的映射类型变量

我在尝试在配置单元中定义地图类型时遇到问题根据蜂巢手册肯定有地图类型不幸的是没有任何关于如何使用它的示例假设我有一个包含以下列的表用户 Name Ph CategoryName 此 CategoryName 列具有一组特定的值现

hive HiveQL

Hive 表中 count(*) 的错误结果

我在 HIVE 中创建了一个表 CREATE TABLE IF NOT EXISTS daily firstseen analysis firstSeen STRING category STRING circle STRING specI

Hadoop hive HiveQL

如何将多个语句传递到 Spark SQL HiveContext

例如我有一些 Hive HQL 语句想要传递到 Spark SQL 中 set parquet compression SNAPPY create table MY TABLE stored as parquet as select fr

apachespark HiveQL apachesparksql

SparkSQL SQL 查询写入 JDBC 表的是什么？

用于 Spark 中的 SQL 查询对于读取我们可以通过以下方式读取 jdbc CREATE TEMPORARY TABLE jdbcTable USING org apache spark sql jdbc OPTIONS dbtab

JDBC apachespark hive apachesparksql HiveQL

在 Hive 中将字符串转换为时间戳

我的 Hive 表中有以下时间戳字符串表示形式 20130502081559999 我需要将其转换为字符串如下所示 2013 05 02 08 15 59 我尝试过以下操作 code gt gt gt result from unixti

Hadoop hive HiveQL

有没有办法在 Hive 中转置数据

这是我的桌子 pid high medium low 1 10 8 6 2 20 16 12 3 10 6 4 我想将此数据存储在 Hive 中的另一个表中格式如下 pid priority value 1 high 10 1 mediu

Hadoop hive HiveQL

Hive QL - 限制每个项目的行数

如果我在 where 子句中列出了多个项目如何将列表中每一项的结果限制为 N EX select a id b c count as sumrequests from table name where a id in 1 2 3 grou

Hadoop HQL hive HiveQL

Hive解释计划理解

是否有任何适当的资源可以让我们完全理解 hive 生成的解释计划我尝试在 wiki 中搜索它但找不到完整的指南来理解它这是 wiki 它简要解释了解释计划的工作原理但我需要有关如何推断解释计划的更多信息 https cwiki a

Hadoop hive HiveQL sqlexecutionplan explain

Hive 中的“InputFormat、OutputFormat”和“Stored as”有什么区别？

我是大数据新手目前正在学习 Hive 我理解 Hive 中的 InputFormat 和 OutputFormat 的概念是 SerDe 的一部分我还了解到存储为用于以特定格式存储文件就像 InputFormat 一样但我不明白

Hadoop hive HiveQL hiveserde

如何将 HiveQL 查询的结果输出到 CSV？

我们希望将 Hive 查询的结果放入 CSV 文件中我认为命令应该如下所示 insert overwrite directory home output csv select books from table 当我运行它时它说它已成功完

database Hadoop hive HiveQL