所以我的问题是,我在 Airflow 中构建 ETL 管道,但首先在 Jupyter 笔记本中真正开发和测试提取、转换和加载功能。因此,我最终总是在 Airflow Python 操作员代码和 Jupyter 笔记本之间来回复制粘贴,效率非常低!我的直觉告诉我,所有这一切都可以自动化。
基本上,我想在 Jupyter 中编写我的提取、转换和加载函数,并让它们保留在那里,同时仍在 Airflow 中运行管道并显示提取、转换和加载任务,并进行重试和 Airflow 提供的所有好东西提供开箱即用的功能。
Papermill 能够对笔记本进行参数化,但我真的想不出这对我的情况有什么帮助。有人可以帮我把这些点联系起来吗? ????????
[免责声明:我是上述开源项目的提交者之一。] 我们已经创建了Elyra- 一组 JupyterLab 扩展 - 精确简化此类工作。我们刚刚发布了 2.1 版本,它提供了一个可视化编辑器,您可以使用它从笔记本和 Python 脚本组装管道(R 支持很快就会推出),并在 Apache Airflow、Kubeflow Pipelines 或本地 JupyterLab 上运行它们。对于 Airflow(在 Kubernetes 上运行),我们创建了一个自定义运算符负责内务管理和执行。我写了一篇关于它的总结文章,你可以找到here我们有几个入门教程如果您有兴趣尝试一下。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)