使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误

2024-03-23

我运行一个 DAG，提取 MySQL 数据并将其加载到气流中的 BigQuery。我目前收到以下错误：

/usr/local/lib/python2.7/dist-packages/airflow/models.py:1927：PendingDeprecationWarning：无效参数传递给 MySqlToGoogleCloudStorageOperator。 Airflow 2.0 中将不再支持传递此类参数。无效参数是：

*参数：()

**kwargs：{'google_cloud_storage_connn_id'：'podioGCPConnection'}类别= PendingDeprecationWarning

/usr/local/lib/python2.7/dist-packages/airflow/models.py:1927：PendingDeprecationWarning：无效参数传递给 GoogleCloudStorageToBigQueryOperator。 Airflow 2.0 中将不再支持传递此类参数。无效参数是：

*参数：()

**kwargs: {'project_id': 'podio-data'} 类别=PendingDeprecationWarning

dag 的代码在这里：

my_connections = [
    'podiotestmySQL'
]

my_tables = [
    'logistics_orders',
    'logistics_waybills',
    'logistics_shipping_lines',
    'logistics_info_requests'
]

default_args = {
    'owner' : 'tia',
    'start_date' : datetime(2018, 1, 2),
    'depends_on_past' : False,
    'retries' : 1,
    'retry_delay':timedelta(minutes=5),
}

dag = DAG('etl', default_args=default_args,schedule_interval=timedelta(days=1))

slack_notify = SlackAPIPostOperator (
    task_id = 'slack_notfiy',
    token = 'xxxxxx',
    channel='data-status',
    username = 'airflow',
    text = 'Successfully performed podio ETL operation',
    dag=dag)

for connection in my_connections:
    for table in my_tables: 
        extract = MySqlToGoogleCloudStorageOperator(
           task_id="extract_mysql_%s_%s"%(connection,table),
           mysql_conn_id = connection,
           google_cloud_storage_connn_id = 'podioGCPConnection',
           sql = "SELECT *, '%s' as source FROM podiodb.%s"%(connection,table),
           bucket='podio-reader-storage',
           filename= '%s/%s/%s{}.json'%(connection,table,table),
           schema_filename='%s/schemas/%s.json'%(connection,table),
           dag=dag)

       load =GoogleCloudStorageToBigQueryOperator(
           task_id = "load_bg_%s_%s"%(connection,table),
           bigquery_conn_id = 'podioGCPConnection',
           google_cloud_storage_conn_id = 'podioGCPConnection',
           bucket = 'podio-reader-storage',
           destination_project_dataset_table = "Podio_Data1.%s/%s"%(connection,table),
           source_objects = ["%s/%s/%s*.json"%(connection,table,table)],
           schema_object = "%s/schemas/%s.json"%(connection,table),
           source_format = 'NEWLINE_DELIMITED_JSON',
           create_disposition = 'CREATE_IF_NEEDED',
           write_disposition = 'WRITE_TRUNCATE',
           project_id = 'podio-data',
           dag=dag)

      load.set_upstream(extract)
      slack_notify.set_upstream(load)

在这里阅读源码：https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/gcs_to_bq.py https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/gcs_to_bq.py

请从默认参数中删除这些参数：

google_cloud_storage_connn_id = 'podioGCPConnection'
project_id = 'podio-data',

您需要在 Airflow 仪表板中创建连接。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

mysql

googlebigquery

airflow

使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误的相关文章

多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何对字段数据进行分组？

我有 sql 查询来显示数据 SELECT artikel foto naam fotografer id fotografer name fotografer customer first name customer last name
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
如何关闭整个数据库的区分大小写

我创建了一个包含许多脚本和许多存储过程的数据库在这个数据库中我们没有注意担心区分大小写因为它对于我的本地开发计算机来说是关闭的综上所述我试图弄清楚如何使以下两条语句返回相同的结果 SELECT FROM companies SEL
错误 1305 (42000)：保存点...不存在

我的 MYSQL 数据库中有这个 SQL 存储过程为空所以我猜没有隐式提交 DROP PROCEDURE IF EXISTS doOrder DELIMITER CREATE PROCEDURE doOrder IN orderUUID
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
如何统计订单总价？

我有这些表 Orders id status user id address id 1 await 1 1 products id name price quantity 1 test1 100 5 2 test2 50 5 order p

随机推荐

VIM - 从项目中的多个位置采购标签

再会我通常从事相对较小少于 20 000 行代码的项目这些项目全部包含在单个目录中有自己的 Makefile 并且相当容易使用 VIM is my preferred editor and when I open a projec
有没有办法在 Google Play 上提交reactjs PWA？

我想使用一次编写到处运行所以我用create react app在reactjs中创建了一个PWA 我的应用程序运行良好我可以将其从网站放在手机的主屏幕上不过我也希望在移动商店中可见从 Google Play 开始 I tri
Boto3 Python Lambda 自定义返回错误

有没有办法以 HTTP 响应的形式自定义 Boto3 Lambda 异常消息并返回它同时发送强制失败这是一个例子 except Exception as e print nException failed to invoke jobs
Cloudsight Api 对 Android 平台上的图像上传提供空响应

我正在尝试上传图像 https api cloudsightapi com image requests https api cloudsightapi com image requests 但在请求调用之后我将所有字段都设为 null
禁用手势下拉表单/页面表模式呈现

在 iOS 13 中使用表单和页面样式的模式演示可以通过向下平移手势来关闭这在我的一张表单中是有问题的因为用户绘制到这个框中会干扰手势它将屏幕向下拉而不是绘制垂直线如何在以工作表形式呈现的模式视图控制器中禁用垂直滑动以消除手势
为什么我看不到 mod_wsgi 的进程

我有一个 wsgi 应用程序配置如下 WSGIApplicationGroup GLOBAL WSGIDaemonProcess myapp user myuser threads 10 maximum requests 10000 WSG
window.unload() 在 jQuery 中不起作用

我试图在关闭页面后提醒一些事情一个简单的window unload示例如下 HTML
针对整个表验证 UPDATE 和 INSERT 语句

我正在寻找向表添加约束的最佳方法该约束实际上是表上的唯一索引关系该记录与该表中的其余记录之间想象一下下表描述了各个警卫的巡逻情况来自之前的看守场景 PK PatrolID Integer FK GuardID Integer Star
如何分析单个 Java (Spring) 方法的运行？

我有一个在我的 PC 上运行的 Java Spring 应用程序我可以附加调试器我正在寻找一种分析单个方法的方法最好是具有 UI 来深入了解消耗最多时间的子方法的方法我尝试了 JDK 任务控制和 IntelliJ 的默认分析器我相
jQuery.fn 是什么意思？

什么是fn这里的意思是 jQuery fn jquery 在 jQuery 中 fn属性只是一个别名prototype财产 The jQuery标识符或只是一个构造函数以及用它创建的所有实例都继承自构造函数的原型一个简单的构造函数
在 Vertx 中，我需要将所有 HTTP 请求重定向到相同的 URL，但对于 HTTPS

我在 Koltin 中编写了一个 Vertx web 处理程序它将我收到的任何 HTTP 请求重定向到 HTTPS 并且我正在使用context request isSSL确定请求是否不是 SSL 在我将代码放在负载均衡器后面之前这一切
Docker 容器中的 ASP.NET Core/.NET Core 控制台应用程序日志记录

如何在 docker 容器内运行的 net core 应用程序中写入日志以便日志消息显示在docker logs
如何制作动画 svg 虚线？

我尝试在 HTML SVG CSS JS 中制作动画虚线这是我的第一个 svg 动画显然我什么都不懂首先这是我的虚线
C++ 成员变量

考虑下面的类 class A A int number void setNumber int number 您可以通过 3 种方式实现 setNumber Method 1 使用 this 指针 void A setNumber int n
Jenkins 错误：未找到测试报告文件。配置错误？

我不明白为什么我会出现这个错误我已经通过 jenkins 在 Windows 上安装了 ant 我的项目叫做自由测试并保存在 C Program Files x86 Jenkins workspace test freestyle 我手动
使用正则表达式在 Python 中解析 XML

我正在尝试使用正则表达式来解析XML文件就我而言这似乎是最简单的方法例如一行可能是 line
Visual Studio 2013 高 DPI 解决方法导致调试器失败

类似这个问题4k 屏幕上的 Visual Studio 2013 高 DPI https stackoverflow com questions 30295785 visual studio 2013 high dpi on 4k scre
.htaccess 文件不重定向 http://www。到 https://www

我制作了一个 htaccess 文件将所有网站流量重定向到https www 这是我完整的 htaccess 文件 RewriteEngine On RewriteCond HTTP HOST www example com NC Rewr
Gradle 7 迁移：无法应用 PublishPlugin (maven-publish)：项目已评估后无法运行 afterEvaluate

将 Gradle 从 6 8 升级到 7 1 1 后我得到 A problem occurred evaluating script gt Failed to apply plugin class org gradle api publi
使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误

我运行一个 DAG 提取 MySQL 数据并将其加载到气流中的 BigQuery 我目前收到以下错误 usr local lib python2 7 dist packages airflow models py 1927 PendingD

使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误

使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误 的相关文章

随机推荐

热门标签

使用 Airflow 将 mysql 数据加载到 bigquery 的 dag 出现“无效参数传递”错误的相关文章