使用 Hiveql 循环

2024-05-14

我正在尝试合并 2 个数据集，例如 A 和 B。数据集 A 有一个变量“Flag”，它有 2 个值。我并没有只是将两个数据合并在一起，而是尝试根据“标志”变量合并两个数据集。

合并代码如下：

create table new_data as
select a.*,b.y
from A as a left join B as b
on a.x=b.x

由于我通过 CLI 运行 Hive 代码，因此我通过以下命令调用它

hive -f new_data.hql

我调用的基于“Flag”变量合并数据的代码的循环部分如下：

for flag in 1 2;
do
  hive -hivevar flag=$flag -f new_data.hql
done

我将上面的代码放在另一个“.hql”文件中，调用它：

hive -f loop_data.hql

但它抛出错误。

无法识别“for”“flag”“in”附近的输入

谁能告诉我我哪里出错了。

Thanks!

您应该将循环逻辑添加到 shell 脚本中。

文件名：loop_data.sh

for flag in 1 2;
do
  hive -hivevar flag=$flag -f new_data.hql
done

并执行如下脚本：

sh loop_data.sh

在您的 new_data.hql 脚本中，您正在创建表。因为您应该将 DDL 和 DML 拆分为 2 个单独的脚本。喜欢

DDL：create_new_data.hql

create table new_data as
select 
  a.*,
  b.y
from 
  A as a left join 
  B as b on 
  a.x = b.x
where 
  1 = 0;

DML：insert_new_data.hql

insert into new_data 
select 
  a.*,
  b.y
from 
  A as a left join 
  B as b on 
  a.x = b.x
where
  flag = ${hiveconf:flag}

并更新你的 shell 脚本，如下所示：

文件名：loop_new_data.sh

# Create table
hive -f create_new_data.hql

# Insert data
for flag in 1 2;
do
  hive -hiveconf flag=$flag -f insert_new_data.hql
done

并像这样执行它：

sh loop_new_data.sh

如果您想了解更多信息，请告诉我。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

HiveQL

使用 Hiveql 循环的相关文章

如何通过Spark Thrift Server访问自定义UDF？

我正在 EMR 上运行 Spark Thrift 服务器我通过以下方式启动 Spark Thrift 服务器 sudo u spark usr lib spark sbin start thriftserver sh queue inte
Hive 分区表上的 Spark 行为

我用的是 Spark 2 实际上我不是执行查询的人所以我不能包含查询计划数据科学团队问过我这个问题我们将 Hive 表划分为 2000 个分区并以 parquet 格式存储当在 Spark 中使用相应的表时执行器之间恰好执行了 2
Spark SQL 未正确转换时区[重复]

这个问题在这里已经有答案了使用 Scala 2 10 4 和 Spark 1 5 1 和 Spark 1 6 sqlContext sql select id to date from utc timestamp from unixtim
Hive 表的默认分隔符是什么？

如果我们在创建表时不提及任何分隔符 hive 是否有默认分隔符创建表日志 ts bigint 行字符串按 dt 字符串国家地区字符串分区默认分隔符 001 如果创建hive表时没有设置您可以将其更改为其他分隔符例如 hive
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
当从 HDFS 手动删除分区数据时，如何更新 Hive 中的分区元数据

自动更新Hive分区表元数据的方法是什么如果新的分区数据被添加到HDFS 不执行alter table添加分区命令然后我们可以通过执行命令 msck Repair 来同步元数据如果从HDFS中删除了大量分区数据没有执行alter t
从时间戳获取日期

我有一个像这样的日期字段 2017 03 22 11 09 55 列名称 install date 我有另一个日期字段日期如下 2017 04 20 列名称 test date 我只想从上面 2017 03 22 获取日期字段以便我可以
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
获取从开始日期到结束日期的活跃周数

我的订阅数据如下所示数据显示用户何时购买订阅它有user id subscription id start date and end date 我已经得出wk start and wk end从中 user subscription i
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR

随机推荐

将 PhantomJS 调用中的变量暴露给injectJS

我已经按照从入门页面注入 jQuery 的示例进行操作效果很好我在同一目录中有一个 jQuery 的本地副本并执行类似的操作 if page injectJs jquery min js page evaluate function
Firefox CSS 大纲错误？

在 Chrome 和 IE9 上我指定的 CSS 轮廓完全符合我的要求并充当我正在设计的元素周围的第二个边框但在 Firefox 上轮廓会向外扩展以便包含我生成的 after 伪元素以及主元素这是一个错误还是预期的有什么好的
使用 NSFileHandle 覆盖数据

使用 NSFileHandle 使用 truncateFileAtOffset 从文件末尾删除 n 个字符非常容易 void removeCharacters int numberOfCharacters fromEndOfFile NSF
使用 Windows 原始访问 API 直接访问 USB 驱动器

在USB物理驱动器的末尾我想使用Windows原始访问API直接写入数据我不想使用内核驱动程序来做到这一点据我所知出于安全原因 Windows XP SP2 或 SP3 阻止了 HDD 直接访问我不确定 USB 驱动器是否如此请
选定的非聚合值必须是关联组的一部分

我在 Teradata 中有两个表 Table A 和 Table B 它们之间是 LEFT JOIN 之后我将创建 SELECT 语句其中包含两个表中的属性 SELECT attribute 1 attribute 2 attribut
无需 cron 在后台发送邮件

我想知道是否有一种方法可以运行 PHP 循环以便在后台向订阅者发送几百封电子邮件我的目标是格式化新闻通讯单击发送然后关闭浏览器或更改页面当然发送电子邮件的实际过程将在后台运行不会因浏览器关闭而中断我知道这可以通过 cron
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
CultureInfo 的实例（来自相同的文化）根据操作系统而变化

我有一个网站上面写着这样的日期 CultureInfo cultureInfo CultureInfo GetCultures CultureTypes AllCultures FirstOrDefault c gt string Equ
VBA 访问：从另一个表单的代码刷新一个表单

编辑没关系有人帮助了我 form name recalc 或 form name refresh form main recalc 我有两种形式主要详细信息在主表单中我有一个在对话框中打开详细信息的按钮问题是我在详细信
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
Groovy - 在对象实例化期间忽略映射中的额外属性

有没有办法让 groovy 在对象实例化期间忽略映射中的额外属性例子 class Banana String name def params name someGuy age 13 new Banana params 在这个例子中 gro
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
如何使用javascript从word文档页面中删除表格设计？ Word js 插件

我正在从表格 html 的 word 文档最后一页插入表格设计我怎样才能删除它这是我的代码 async function NewMap try await Word run async context gt html to word h
操作错误：尝试在 ubuntu 服务器中写入只读数据库

我正在使用 FlaskApp 运行mod wsgi and apache2在 Ubuntu 服务器上我尝试运行烧瓶应用程序localhost成功然后部署到ubuntu服务器上但是当我尝试更新数据库时出现错误 Failed to up
如何使用 poedit 解析 Timber（树枝）模板并检测要翻译的引用字符串

我想用 poedit 解析 Timber 的树枝模板并且需要翻译引用的内容问题是我找不到不跳过引用内容的解析器 Example
Nginx - Heroku Docker - 是否可以在 Heroku 上运行 Nginx 作为反向代理

我试图弄清楚如何使用 Nginx 在 Heroku 应用程序上构建反向代理问题是 Heroku 似乎每个应用程序只接受一个容器但我的应用程序系统至少会使用三个容器一个用于 Nginx 一个用于我的应用程序前端一个用于我的业务逻辑服务
如何将 JSON 数据从 Android 发送到 php url？

我想将登录信息从我的应用程序发送到 php url 因为这我的应用程序将崩溃任何人都可以帮助我解决这个问题这是我的服务器登录方法我想将数据发送到此登录方法 Method public method login Parameters 3
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
请求完成时间大于 ActiveRecord 和 View 时间之和

以下是一些示例请求完成时间 Completed 200 OK in 1054ms Views 10 8ms ActiveRecord 455 6ms Completed 200 OK in 1410ms Views 11 6ms Activ
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se

使用 Hiveql 循环

使用 Hiveql 循环 的相关文章

随机推荐

热门标签

使用 Hiveql 循环的相关文章