我使用 dask.distributed 进行的计算包括创建名称包含 UUID4 的中间文件,用于标识该工作块。
pairs = '{}\n{}\n{}\n{}'.format(list1, list2, list3, ...)
file_path = os.path.join(job_output_root, 'pairs',
'pairs-{}.txt'.format(str(uuid.uuid4()).replace('-', '')))
file(file_path, 'wt').writelines(pairs)
同时,dask分布式集群中的所有任务都有唯一的key。因此,使用该密钥 ID 作为文件名是很自然的。
是否可以?
有两种方法可以解决这个问题:
- 您确定 uuid 并将其传递给 Dask(已实现)
- Dask 确定 uuid 并将其传递给您的函数(未实现,但可能)
您将 uuid 传递给 Dask
功能类似于.submit
接受一个key=
关键字参数,您可以在其中指定要使用的密钥
>>> e.submit(inc, 1, key='inc-12345')
<Future: status: pending, key: inc-12345>
类似地,dask.delayed 函数支持dask_key_name
关键字参数
>>> value = delayed(inc)(1, dask_key_name='inc-12345')
你从 Dask 那里得到钥匙
在每个任务执行期间,调度程序将这样的上下文信息放入每线程全局中。从版本 1.13 开始,它的可用方式如下:
def your_function(...):
from distributed.worker import thread_state
key = thread_state.key
future = e.submit(your_function, ...)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)