气流中任务的粒度

2024-02-11

对于一项任务，有许多辅助任务 - 从文件/数据库获取/保存属性、验证、审核。这些辅助方法并不耗时。

一个样本 DAG 流，

fetch_data >> actual_processing >> validation >> save_data >> audit

这种情况下的建议是什么：

为每个辅助任务创建一个任务
将所有内容都放在一项任务中？

假设有足够的资源，气流任务的开销是多少？

问题1

这个场景有什么推荐

始终尝试在单个任务中保留最多的东西（最好有fat运行时间超过几分钟的任务lean运行几秒钟的任务）到（并非详尽列表）

1.最小化调度延迟 https://stackoverflow.com/questions/63950467/how-can-one-create-somewhat-complex-airflow-branch-operators#comment113093795_63950467
2.最小化负载scheduler / webserver / SQLAlchemy后端数据库。

此规则的例外情况可能是（并非详尽列表）

1. when 幂等性规定您必须将任务分解为更小的步骤，以防止浪费的重新计算/破坏工作流程，如使用运算符 https://airflow.apache.org/docs/stable/howto/operator/index.html doc

一个操作符代表一个单一的、理想情况下幂等的任务

2.特殊情况，例如您正在使用pools https://airflow.apache.org/docs/stable/concepts.html#pools限制外部资源的负载 => 在这种情况下，每个涉及外部资源的操作都必须建模为单独的任务，以便通过以下方式强制执行负载限制pools

问题2

假设有足够的资源，气流任务的开销是多少？

虽然我无法在这里提供技术上精确的答案，但请理解 Airflow 的调度程序本质上是在基于民意调查的方法

at every heartbeat (usually ~ 20-30 s), it scans meta-db and DagBag to determine the list of tasks that are ready to run for e.g. like
- a scheduled上游任务已运行的任务
- an up_for_retry任务是谁retry_delay已过期

来自old docs https://airflow.apache.org/docs/1.10.1/scheduler.html#:%7E:text=The%20Airflow%20scheduler%20monitors%20all,whether%20they%20can%20be%20triggered.

Airflow调度器监控所有任务和所有DAG，并触发其依赖关系已得到满足的任务实例。在...后面场景，它监视并与所有 DAG 的文件夹保持同步它可能包含的对象，并定期（每分钟左右）检查活动任务以查看它们是否可以被触发。

这意味着拥有更多tasks（以及更多连接 / 依赖关系它们之间）会增加调度程序的工作量（需要评估更多检查）

建议阅读

Airflow Scheduler 调度后续任务的速度很慢 https://stackoverflow.com/q/47450855/3679900
当气流不够快时 https://medium.com/@manuelmourato25/when-airflow-isnt-fast-enough-distributed-orchestration-of-multiple-small-workloads-with-celery-afb3daebe611
使用 Airflow 执行频繁任务 https://stackoverflow.com/a/49676127/3679900

对于运行大量快速/小型任务的所有这些问题，我们需要快速的分布式任务管理，这不需要先前的资源分配（如 Airflow 所做的那样），因为每个 ETL 任务都需要资源非常少，并且允许任务在执行完之后执行其他立即。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

airflow

气流中任务的粒度的相关文章

Docker 上的 Airflow - 路径问题

使用气流我尝试简单的 DAG 工作我编写了自定义运算符和其他文件我想将它们导入到 DAG 逻辑所在的主文件中这里是文件夹的结构 airflow cfg dags init py dag py sql statements sql do
Airflow BigQueryOperator：如何将查询结果保存在分区表中？

我有一个简单的 DAG from airflow import DAG from airflow contrib operators bigquery operator import BigQueryOperator with DAG da
如何以编程方式使用 localstack s3 端点设置 Airflow 1.10 日志记录？

为了尝试将气流日志记录到 localstack s3 存储桶对于本地和 kubernetes 开发环境我遵循用于记录到 s3 的气流文档 https airflow apache org docs 1 10 1 howto write
我可以通过在 Airflow 中向运算符添加更多 cpu 来提高处理速度吗？

In airflow cfg有一个部分称为 operators where default cpus被设置为1 and default ram and default disk都设置为512 我想了解如果增加这些参数是否会提高处理速度我查
如何定义 Airflow 上 STFP Operator 的操作？

class SFTPOperation object PUT put GET get operation SFTPOperation GET NameError name SFTPOperation is not defined 我在这里定
Airflow连接密码解密

我想解密气流连接的密码从连接表中获取值有什么方法可以解密密码值你可以做 from airflow hooks base hook import BaseHook connection BaseHook get connection c
Apache Airflow - 完成时触发/安排 DAG 重新运行（文件传感器）

早上好我也在尝试设置 DAG 监视感知文件是否到达网络文件夹处理文件将文件归档使用在线教程和 stackoverflow 我已经能够提出以下成功实现目标的 DAG 和 Operator 但是我希望 DAG 在完成后重新安排或重新运
如何在 Airflow 中安装软件包？

我在 Airflow 在 GCP 上部署了一个 dag 但收到错误没有名为 scipy 的模块如何在 Airflow 中安装软件包我尝试添加一个单独的 DAG 来运行 def pip install package subproce
更改 AirFlow 中 Lambda 调用的“读取超时”

我有一个 lambda 始终需要超过 1 分钟才能完成执行这是默认的问题LambdaInvokeFunctionOperator 因为默认情况下它的钩子会创建一个Boto3与默认连接读取超时60 秒意味着 60 秒后如果 Lambd
使用 AWS ElastiCache 请求中的 Airflow CROSSSLOT 密钥未散列到同一插槽错误

我在 AWS ECS 上运行 apache airflow 1 8 1 并且有一个 AWS ElastiCache 集群 redis 3 2 4 运行 2 个分片 2 个启用多可用区的节点集群 Redis 引擎我已经验证气流可以毫无问题
Airflow initdb slot_pool 不存在

我面临一个问题airflowpostgres 后端初始化乌班图 18 04 1 气流 v1 10 6 Postgres 10 10 Python 3 6 当我跑步时 airflow initdb I get 2019 11 22 10 1
添加到本地主机数据库的气流连接（在 docker 上运行的 postgres）

我有一个本地运行的 dockerized postgres 我可以通过 pgAdmin4 和 via 连接到它psql 使用相同的连接详细信息我在 UI 上设置了气流连接但是当尝试加载使用该连接的 DAG 时它会抛出错误损坏的 D
dag.py 引发：“airflow.exceptions.AirflowException：任务缺少 start_date 参数”，但它在代码中给出

我今天尝试创建我的第一个气流 DAG from datetime import timedelta from airflow import DAG from airflow operators bash operator import Ba
如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？

我一直在使用 Postgres to S3 运算符将数据从 Postgres 加载到 S3 但最近我必须导出一个非常大的表并且我的 Airflow Composer 失败没有任何日志这可能是因为我们正在使用 Python 临时文件模
气流：找不到 dag_id

我在不同的 AWS 机器上运行气流服务器和工作线程我已经在它们之间同步了 dags 文件夹然后运行airflow initdb在两者上并在运行时检查 dag id 是否相同airflow list tasks
使用DockerOperator时如何同时使用xcom_push=True和auto_remove=True？

Problem 跑步时DockerOperator with xcom push True xcom all True and auto remove True 任务会引发错误就好像容器在读取其内容之前被删除一样STDOUT Exampl
气流 - 未知的蓝色任务状态

我刚刚收到一个蓝色任务该任务没有出现在状态图例中我很好奇这是一个错误还是未记录的状态正如您所看到的蓝色没有显示在右侧的潜在状态列表中我刚刚完成了所有过去未来和上游尝试的清理仅供参考这是一个已知的 TaskInstance 状
编程错误：（psycopg2.errors.UndefinedColumn）关系“task_fail”的列“execution_date”不存在

我正在尝试在气流中运行 DAG 以将数据集摄取到谷歌云存储这是 DAG 脚本 import os from airflow import DAG from airflow utils dates import days ago from
Airflow：网络服务器未找到新的 DAG

在 Airflow 中我应该如何处理错误此 DAG 在网络服务器 DagBag 对象中不可用它显示在此列表中因为调度程序将其在元数据数据库中标记为活动状态我已将新的 DAG 复制到 Airflow 服务器并尝试过取消暂停并刷新
气流：如何将读取 json 文件的方法放入本地库中

我必须产生一些DAG 我已将 json 表架构文件保存在GCP铲斗 https cloud google com storage docs json api v1 buckets GCP 存储桶上的文件关联到composer将被重新映射到

随机推荐

对列表视图进行分类

我在我的 Android 应用程序中使用列表视图并使用从数据库加载数据 setListAdapter adapter 现在我想根据数据给出列表中每个项目左侧的彩色条我该怎么做请帮我我的想法是创建一个如图所示的列表视图如果还没有你
检查字节序列是否是 Javascript 中有效的 UTF-8 序列

有没有一种简单的方法来检查 JavaScript 中的字符串是否是有效的 UTF 8 序列我真的不想以这样的正则表达式结束用于检测无效 UTF 8 字符串的正则表达式 https stackoverflow com questions
AWS Polly Java 客户端出现错误：无法从链中的任何提供商加载区域信息

我正在使用 AWS 的 JAVA SDK 创建 Polly 客户端像这样 BasicAWSCredentials awsCreds new BasicAWSCredentials
php列出upack字符串

这个链接 http php net manual en migration70 incompatible php migration70 incompatible variable handling list says list can n
Angular 5拦截器 - 在第一个拦截器重试失败后仅调用第二个拦截器

我正在构建一个 Angular 5 应用程序其中有 2 个拦截器重试失败的 504 请求之一另一个向用户显示有关失败请求的错误消息我希望第二个拦截器仅在错误不是 504 或错误为 504 并且已被第一个拦截器重试时被调用我创建了一
缩放高图后执行函数

Highcharts 中的图表缩放后是否可以执行功能 Use the 设置极端后 event xAxis categories Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec events a
子 shell 进程无法访问父 shell 中定义的变量和函数

我在同一目录中有3个脚本请找到以下x sh y sh和z sh的内容 x sh xData DataOfX function xInit echo xInit data of a gt xData lt y sh x sh xInit s
为什么 Chrome 会在空白字段上显示“请填写此字段”工具提示？

我的客户联系我说用户抱怨说某些字段现在显示带有消息请填写此字段的工具提示我简直不敢相信我所听到的但客户是对的使用最新的 Chrome 版本某些字段会显示带有此消息的浏览器工具提示甚至与我的验证器并排有什么问题我缺少什么
C#语言设计支柱

In the article http www artima com intv nonvirtualP html http www artima com intv nonvirtualP html http www artima com i
std::allocator 中“销毁”“析构函数”“解除分配”之间的区别？

In C std allocator 存在与共同概念相关的三种方法 deallocate destroy 析构函数我想知道从内存管理的角度来看它们有何不同我什么时候应该使用这个而不是那个谢谢你编辑更具体的疑问很抱歉一开始就笼
C# 中的复数和本地化字符串

我有一个 C WPF 应用程序我正在尝试使用 resx 文件进行全球化效果非常好然而我遇到了麻烦我有一个相对简单的复数解决方案其中我显示的字符串有单数和复数形式我根据我正在谈论的任何事物的数量选择一个然而我最近接受了这样一
当我回来或结束时如何重置我的控制器？

我有一个 QuestionController 类扩展GetxController 当我使用控件退出页面时我希望它停止工作因为它仍在后台运行并在我返回该页面时重新启动我试过了我在路线之后添加了这些ScoreScreen in ne
在管理中合并用户和用户配置文件

我一直在阅读 Django 对用户和配置文件的分离并且我决定使用一个名为 UserProfile 的模型该模型位于帐户应用程序中作为我的配置文件问题是现在我有两个独立的管理区域一个用于修改用户一个用于修改用户配置文件是否可以在
Word 插件获取完整的文档文本？

我正在使用以下命令编写一个 Office addinYeoman 办公室发电机 https github com OfficeDev generator office 基于这些说明 https dev office com getting
运行 SqlQuery EF 时 FieldNameLookup.GetOrdinal 中索引超出范围异常

我们最终得到一个索引超出范围运行这样的代码时出现异常 result Data dbOptima Database ExecuteStoredProcedure task StoredProcedureValues PROC GET TASK
Python中的时间序列分解函数

时间序列分解是一种将时间序列数据集分成三个或更多分量的方法例如 x t s t m t e t where t is the time coordinate x is the data s is the seasonal compon
firebase 函数 Puppeteer 找不到 Chromium GCP

我已经在谷歌云上使用GCP很长时间了我想运行一个使用Puppeteer的云函数但不幸的是我收到以下错误未处理的错误错误找不到 Chromium 修订版 1069273 如果出现以下任一情况就会发生这种情况您在运行脚本之前没有安
比较 JPA Criteria API 中的日期实体

使用 JPA 2 和 EclipseLink 实现我正在尝试构建一个动态查询它应该为我带来一些在给定日期之后保留的记录 CriteriaBuilder builder em getCriteriaBuilder CriteriaQuer
如何为 WongKinYiu/Yolov7 姿势估计准备自定义关键点数据集？

如何准备自定义关键点数据集黄建耀 yolov7 https github com WongKinYiu yolov7 pose estimation 关键点格式描述如下 https cocodataset org format data h
气流中任务的粒度

对于一项任务有许多辅助任务从文件数据库获取保存属性验证审核这些辅助方法并不耗时一个样本 DAG 流 fetch data gt gt actual processing gt gt validation gt gt save

气流中任务的粒度

气流中任务的粒度 的相关文章

随机推荐

热门标签

气流中任务的粒度的相关文章