Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
BigQuery with Airflow - 缺少projectId
尝试下面的例子 https cloud google com blog big data 2017 07 how to aggregate data for bigquery using apache airflow https cloud
googlebigquery
airflow
气流,在 dag 运行之前标记任务成功或跳过它
我们有一个巨大的 DAG 其中有许多小而快速的任务和一些大而耗时的任务 我们只想运行 DAG 的一部分 我们发现最简单的方法是不添加我们不想运行的任务 问题是我们的 DAG 有很多相互依赖关系 因此当我们想要跳过某些任务时 不破坏 DAG
python
airflow
googlecloudcomposer
气流:找不到 dag_id
我在不同的 AWS 机器上运行气流服务器和工作线程 我已经在它们之间同步了 dags 文件夹 然后运行airflow initdb在两者上 并在运行时检查 dag id 是否相同airflow list tasks
airflow
气流:Dag 每隔几秒安排两次
我尝试每天仅运行一次 DAG00 15 00 午夜 15 分钟 然而 它被安排了两次 间隔几秒钟 dag DAG my dag default args default args start date airflow utils dates
concurrency
Cron
airflow
如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3?
我一直在使用 Postgres to S3 运算符将数据从 Postgres 加载到 S3 但最近 我必须导出一个非常大的表 并且我的 Airflow Composer 失败 没有任何日志 这可能是因为我们正在使用 Python 临时文件模
python
postgresql
airflow
googlecloudcomposer
dag.py 引发:“airflow.exceptions.AirflowException:任务缺少 start_date 参数”,但它在代码中给出
我今天尝试创建我的第一个气流 DAG from datetime import timedelta from airflow import DAG from airflow operators bash operator import Ba
python3x
airflowscheduler
airflow
AIRFLOW:在 jinja 模板中为 {{ds}} 使用 .replace() 或relativedelta()
我的目标是根据气流宏变量 ds 返回上个月的第一天并使用它 例如在 Hive 操作符中 例如 对于 ds 2020 05 09 我预计返回 2020 04 01 我找到并尝试的解决方案是 SET hivevar LAST MONTH ds
python
macros
airflow
任务之间的气流延迟
As you can see in the image airflow is making too much time between tasks execution it almost represents 30 of the DAG e
python
airflow
directedacyclicgraphs
airflowscheduler
如何记录 Airflow DAG 的输出以进行调试?
我正在编写 Airflow DAG 但在函数方面遇到一些问题 我正在尝试通过将数据打印到标准输出并使用logging图书馆 我的示例 DAG 是 from datetime import timedelta import airflow i
airflow
datadog
我怎样才能得到dag中的execution_date?运算符的外部?
我怎样才能获得execution date参数在 dag 之外 execution min execution date strftime M if execution min 00 logging info YES It s 00 fin
templates
parameters
Jinja2
operatorkeyword
airflow
为每个文件运行气流 DAG
所以我在airflow中有一个非常好的DAG 它基本上在二进制文件上运行几个分析步骤 作为airflow插件实现 DAG 由 ftp 传感器触发 该传感器仅检查 ftp 服务器上是否有新文件 然后启动整个工作流程 所以目前的工作流程是这样的
python
airflow
气流中的execution_date:需要作为变量访问
我真的是这个论坛的新手 但有一段时间 我一直在为我们公司玩气流 抱歉 如果这个问题听起来很愚蠢 我正在使用一堆 BashOperators 编写一个管道 基本上 对于每个任务 我想简单地使用 curl 调用 REST api 这就是我的管道
airflow
如何在 Google Composer 上重新启动气流服务器?
当我需要在本地重新启动网络服务器时 我会这样做 ps ef grep airflow awk print 2 xargs kill 9 airflow webserver p 8080 D 我如何在 Google Composer 上执行此
如何检查何时为特定 dag 安排了下一次 Airflow DAG 运行?
我已设置气流并运行一些 DAG 安排每天一次 0 0 我想检查下次计划运行特定 dag 的时间 但我看不到可以在管理员中执行此操作的位置 如果你愿意 你可以使用Airflow s CLI 有next execution option htt
python
scheduledtasks
airflow
添加到本地主机数据库的气流连接(在 docker 上运行的 postgres)
我有一个本地运行的 dockerized postgres 我可以通过 pgAdmin4 和 via 连接到它psql 使用相同的连接详细信息 我在 UI 上设置了气流连接 但是 当尝试加载使用该连接的 DAG 时 它会抛出错误 损坏的 D
postgresql
Docker
airflow
Airflow initdb slot_pool 不存在
我面临一个问题airflowpostgres 后端初始化 乌班图 18 04 1 气流 v1 10 6 Postgres 10 10 Python 3 6 当我跑步时 airflow initdb I get 2019 11 22 10 1
postgresql
airflow
使用 AWS ElastiCache 请求中的 Airflow CROSSSLOT 密钥未散列到同一插槽错误
我在 AWS ECS 上运行 apache airflow 1 8 1 并且有一个 AWS ElastiCache 集群 redis 3 2 4 运行 2 个分片 2 个启用多可用区的节点 集群 Redis 引擎 我已经验证气流可以毫无问题
Redis
amazonelasticache
airflow
如何向正在运行的气流服务添加新的 dag?
我有一个气流服务 当前作为网络服务器和调度程序的单独 Docker 容器运行 两者都由 postgres 数据库支持 我在两个实例之间同步了 dags 并且在服务启动时正确加载了 dags 但是 如果我在服务运行时将新的 dag 添加到 d
python
airflow
airflowscheduler
Airflow Worker - 连接中断:IncompleteRead(0 字节读取)
使用 Airflow Worker 和 Web 服务器 调度程序作为在 EC2 上的 Kubernetes Engine 上运行的 Docker 映像 我们有一个任务KubernetesPodOperator这是资源密集型的 每 15 分钟
python
airflow
airflowscheduler
没有这样的文件或目录 /airflow/xcom/return.json
创建了一个图像包含 airflow xcom return json在所有子目录上使用 chmod x 由于日志显示找不到文件或目录 尝试过 chmod x strtpodbefore KubernetesPodOperator names
airflow
«
1
2
3
4
5
6
...14
»