使用airflow hive操作符并输出到文本文件

2023-12-29

您好，我想使用气流 hive 运算符执行 hive 查询并将结果输出到文件。我不想在这里使用 INSERT OVERWRITE 。

hive_ex = HiveOperator(
    task_id='hive-ex',
    hql='/sql/hive-ex.sql',
    hiveconfs={
        'DAY': '{{ ds }}',
        'YESTERDAY': '{{ yesterday_ds }}',
        'OUTPUT': '{{ file_path }}'+'csv',
    },
    dag=dag
)

做这个的最好方式是什么？

我知道如何使用 bash 运算符执行此操作，但想知道我们是否可以使用 hive 运算符

hive_ex = BashOperator(
    task_id='hive-ex',
    bash_command='hive -f hive.sql -DAY={{ ds }} >> {{ file_path }} 
    /file_{{ds}}.json',
    dag=dag
)

由于它是一个非常自定义的用例，因此最好的方法是扩展 Hive 运算符（或创建您自己的 Hive2CSVOperator）。实施取决于您是否可以通过 CLI 或 HiveServer2 访问 hive。

Hive CLI

我会首先尝试配置 Hive CLI 连接并添加hive_cli_params，按照Hive CLI 挂钩代码 https://github.com/apache/incubator-airflow/blob/5127ea34e110891c56e1ba9f70211091d13fa553/airflow/hooks/hive_hooks.py#L9，如果这不起作用，请扩展 Hook（这将使您可以访问所有内容）。

Hive服务器2

对于这种情况有一个单独的钩子（link https://github.com/apache/incubator-airflow/blob/5127ea34e110891c56e1ba9f70211091d13fa553/airflow/hooks/hive_hooks.py#L753）。它更方便一些，因为它有一个get_results方法（source https://github.com/apache/incubator-airflow/blob/5127ea34e110891c56e1ba9f70211091d13fa553/airflow/hooks/hive_hooks.py#L834) or to_csv方法（source https://github.com/apache/incubator-airflow/blob/5127ea34e110891c56e1ba9f70211091d13fa553/airflow/hooks/hive_hooks.py#L852).

The execute操作员代码中的内容可能类似于：

def execute():
  ...
  self.hook = HiveServer2Hook(...)
  self.conn = self.hook.get_conn()

  self.conn.to_csv(hql=self.hql, csv_filepath=self.output_filepath, ...)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用airflow hive操作符并输出到文本文件的相关文章

如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

如何在C中检查stdin是否为空

我正在重新学习 C 编程因此以下问题是为了理解使用 scanf 我了解到或者我自己发现实际上不需要很长时间就能达到这一点刷新 stdin 是一件好事我进一步发现在您的帮助下 fflush stdin 不是标准的操作例如不
SQL 对于字符串来说太长

我有以下SQL需要查询这是一个有效的 SQL 不幸的是对于 VBA 中的字符串来说太长了有人知道运行此查询的解决方法吗 SQL SELECT A cust ky A incid id A OPEN TS A CLOSE TS A RE
存在哪些算法可以最大限度地减少图中节点之间的事务数量？

这个标题可能没有意义假设如下 A欠B 5美元 C欠B 10美元 B 欠 D 15 美元在这种基本情况下存在三个事务但可以减少为两个事务 A 给 D 5 美元 C 给 D 10 美元给定一个更复杂的图有哪些算法可以最小化交易总数
并行编程卡在串行设备的 Concurrency::create_task 调用的第四个实例上

我目前正在开发一个程序其中Raspberry Pi 3将每隔100ms读取4个Arduino USB 设备通过串行通信发送的内容 UI 在 Concurrency create task 的第四次调用 serialDeviceIndex
Android：如何在应用程序启动时执行用户手册或应用程序说明

我是 Android 开发新手我需要在应用程序启动时显示像 Flip kart 应用程序这样的用户手册请参考下图您将会了解我实际上想要实现什么有没有任何标准方法可以实现这一目标您可以手动完成所有工作或者使用名为 Showcas
RStudio 中使用列表自动完成代码

鉴于以下列表我是否需要在更清晰的代码或自动完成之间进行选择或者我可以两者兼得吗我在 MacOS 10 10 5 上使用最新版本的 RStudio gt l lt list gt l a lt data frame ID stringi
如何在可变参数包中找到“min”类型？

min 类型是指比较的类型less比所有根据编译时函数例如sizeof 我有一个实施草案 http ideone com eXLkrM 先介绍一下我面临的两个问题 include
VS Code 不断以带有 BOM 的 UTF-8 格式保存我的文件

VS Code 不断以带有 BOM 的 UTF 8 格式保存我的文件我的files encoding未设置设置默认为utf8 在我的用户设置或工作区设置中 files autoGuessEncoding设置也未设置默认为false 当
有没有办法为 2 个具有不同包名称的应用程序提供 1 个 Firebase 数据库？

我有 2 个应用程序不同的包名称适合 2 个不同的用户组一个将数据放入数据库另一个检索数据因此我只需要 1 个 firebase 数据库用于这两个应用程序据我所知 Firebase 只允许 1 个数据库对应 1 个包名称有没
NUnit 3.0 TestCase const 自定义对象参数

我已经写好了课程SomeObject我想定义一个const要在我的中保留重用的该对象的实例TestCases 我应该如何重写下面的代码来实现这种行为 TestFixture public class SomeObjectTests pri
Python：按任意列对文件进行排序，其中列包含时间值

我有一个人的 txt 文件每个人旁边都有两次这是 txt 文件 Xantippe 09 00 11 00 Erica 10 00 12 06 Marcia 09 30 11 45 Elizabeth 10 15 12 10 Angela
使用 AWS Java SDK v2 从 AWS EKS 获取身份验证令牌

如何使用 AWS Java SDK v2 从 AWS EKS 获取 Kubernetes 身份验证令牌然后可用于使用 Kubernetes SDK 向 Kubernetes 进行身份验证的身份验证令牌换句话说我想从 EKS 获取身份验
如何更新 Dynamodb 中字符串集 (SS) 类型的项目？

我创建了一个字符串集类型的属性当我创建项目并分配 SS 类型的属性时一切正常但是当我尝试更新此属性时数据类型更改为列表 L 我试试这个 qw new AWS DynamoDB DocumentClient var params Ta
jQuery UI Sortable/Draggable 导致窗口跳转

在我的网页上我有一个包含可排序 UL 的 div 每当我滚动到页面底部并拖动最后一个 LI 时我的页面就会跳转并且滚动条在整个窗口上会增长这是一个几乎解决了我的问题的 JSFiddle www jsfiddle net u5af
在Django中的特定时间执行任务

我必须在用户指定的特定时间执行任务这不会是固定时间它将根据用户到时候我就得执行我的任务了为了实现这一点我尝试使用 django cron 也尝试使用 django crontab 但在这两种情况下我们都必须在中指定 cron 详
源代码控制政策

我正在寻找不同源代码控制策略的概述我只了解到主线政策并希望在加入团队之前更好地了解其他政策有人可以提供一个概述的链接甚至给我一些政策名称以便我可以启动谷歌吗没有空的提交消息
如何将内存流加载到 LibVLC 中？

我想使用 LibVLC 播放内存流中的媒体文件如下所示 Ideally it would go like this LibVLC MediaFromStream new MemoryStream File ReadAllBytes Fil
Javascript 中的通配符字符串比较

假设我有一个包含许多字符串的数组称为 birdBlue birdRed 和其他一些动物比如 pig1 pig2 现在我运行一个 for 循环来遍历数组并应该返回所有鸟类这里什么样的比较才有意义 Animals bird 这是我的第一个
什么时候应该真正使用访问者模式

在文中我什么时候应该使用访客设计模式 https stackoverflow com questions 255214 when should i use the visitor design pattern第一个回答者指出现在我们要向层
使用airflow hive操作符并输出到文本文件

您好我想使用气流 hive 运算符执行 hive 查询并将结果输出到文件我不想在这里使用 INSERT OVERWRITE hive ex HiveOperator task id hive ex hql sql hive ex sql

使用airflow hive操作符并输出到文本文件

使用airflow hive操作符并输出到文本文件 的相关文章

随机推荐

热门标签

使用airflow hive操作符并输出到文本文件的相关文章