In airflow.cfg
有一个部分称为[operators]
, where default_cpus
被设置为1
and default_ram
and default_disk
都设置为512
.
我想了解如果增加这些参数是否会提高处理速度。
我查看了来源,这些设置可供所有操作员使用,但它们从未被操作员或任何执行者使用过。
所以我稍微回顾一下历史并看看引入这些设置的提交 https://github.com/apache/incubator-airflow/pull/1669/commits/2c37d26e69248ac7898d013ab341eecf43888c0a他们是,引用 JIRA 票证 https://issues.apache.org/jira/browse/AIRFLOW-341导致该公关:
与yarn和mesos等资源管理器一起使用的可选资源要求
然而,Mesos 执行器是一个社区贡献,它不利用此属性,而只是为每个任务分配相同数量的资源 https://github.com/apache/incubator-airflow/blob/1.9.0/airflow/contrib/executors/mesos_executor.py#L110-L161,据我所知,YARN 执行器还不存在(从版本 1.9 开始)。
我曾经与 Airflow 团队讨论过是否有一种方法可以使用 Mesos 执行器按任务分配资源,他们回复了我他们使用 Celery 执行器为任务分配资源的策略 https://lists.apache.org/thread.html/1cb1e2d336212f2ac3ad5eb698ca5aedde136df0f398acde8cabc3ca@%3Cdev.airflow.apache.org%3E,以防它可能对您了解如何管理资源有所帮助。
关于您在更一般意义上提出的核心问题,您可以从任务中获得的吞吐量与其所分配的资源相关,很大程度上取决于任务本身:当然,这是一个计算密集型任务如果您为可以利用多个处理器的任务分配多个核心,那么它会出现速度波动,而 I/O 密集型任务(例如在不同系统之间复制数据)可能不会看到太大的改进。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)