如何并行化 Azure ML 服务计算集群上的工作？

2023-12-20

我可以使用计算集群将作业提交到 Azure ML 服务。它运行良好，并且自动缩放与自定义环境的良好灵活性相结合似乎正是我所需要的。然而，到目前为止，所有这些作业似乎只使用集群的一个计算节点。理想情况下，我希望使用多个节点进行计算，但我看到的所有方法都依赖于与 azure ML 服务的深度集成。

我的模特案例有点不典型。从之前的实验中，我确定了一组运行良好的架构（预处理步骤的管道 + Scikit-learn 中的估计器）。对这些估计器之一的超参数调整可以相当快地（几分钟）执行随机搜索CV https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html#sklearn.model_selection.RandomizedSearchCV。所以并行这一步似乎效果不太好。

现在我想调整和训练整个架构列表。这应该很容易并行化，因为所有架构都可以独立训练。

理想情况下我想要类似的东西（伪代码）

tuned = AzurePool.map(tune_model, [model1, model2,...])

但是，我找不到任何有关如何使用 Azure ML 计算集群实现此目标的资源。一个可接受的替代方案是以即插即用的方式替代 sklearn 的 CV 调整方法，类似于中提供的方法dask https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html#sklearn.model_selection.RandomizedSearchCV or spark https://databricks.github.io/spark-sklearn-docs/#spark_sklearn.GridSearchCV.

您可以通过多种方式使用 AzureML 来解决此问题。最简单的方法是使用 AzureML Python SDK 启动多个作业（底层示例取自here https://github.com/Azure/MachineLearningNotebooks/blob/4170a394edd36413edebdbab347afb0d833c94ee/how-to-use-azureml/training/train-hyperparameter-tune-deploy-with-sklearn/train-hyperparameter-tune-deploy-with-sklearn.ipynb)

from azureml.train.sklearn import SKLearn

runs = []

for kernel in ['linear', 'rbf', 'poly', 'sigmoid']:
    for penalty in [0.5, 1, 1.5]:
        print ('submitting run for kernel', kernel, 'penalty', penalty)
        script_params = {
            '--kernel': kernel,
            '--penalty': penalty,
        }

        estimator = SKLearn(source_directory=project_folder, 
                            script_params=script_params,
                            compute_target=compute_target,
                            entry_script='train_iris.py',
                            pip_packages=['joblib==0.13.2'])

        runs.append(experiment.submit(estimator))

上述内容要求您将训练内容与所需的 python 包一起分解为一个脚本（或文件夹中的一组脚本）。上面的估计器是使用 Scikit Learn 的便捷包装器。还有 Tensorflow、Pytorch、Chainer 和通用估计器（azureml.train.estimator.Estimator）——它们在使用的 Python 包和基础 docker 上都有所不同。

如果您实际上正在调整参数，第二个选项是像这样使用 HyperDrive 服务（使用相同的SKLearn估计器如上）：

from azureml.train.sklearn import SKLearn
from azureml.train.hyperdrive.runconfig import HyperDriveConfig
from azureml.train.hyperdrive.sampling import RandomParameterSampling
from azureml.train.hyperdrive.run import PrimaryMetricGoal
from azureml.train.hyperdrive.parameter_expressions import choice

estimator = SKLearn(source_directory=project_folder, 
                    script_params=script_params,
                    compute_target=compute_target,
                    entry_script='train_iris.py',
                    pip_packages=['joblib==0.13.2'])

param_sampling = RandomParameterSampling( {
    "--kernel": choice('linear', 'rbf', 'poly', 'sigmoid'),
    "--penalty": choice(0.5, 1, 1.5)
    }
)

hyperdrive_run_config = HyperDriveConfig(estimator=estimator,
                                         hyperparameter_sampling=param_sampling, 
                                         primary_metric_name='Accuracy',
                                         primary_metric_goal=PrimaryMetricGoal.MAXIMIZE,
                                         max_total_runs=12,
                                         max_concurrent_runs=4)

hyperdrive_run = experiment.submit(hyperdrive_run_config)

或者您可以使用 DASK 来安排您提到的工作。以下是如何在 AzureML 计算集群上设置 DASK 的示例，以便您可以对其进行交互式工作：https://github.com/danielsc/azureml-and-dask https://github.com/danielsc/azureml-and-dask

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何并行化 Azure ML 服务计算集群上的工作？

python

Azure

scikitlearn

clustercomputing

azuremachinelearningservice

如何并行化 Azure ML 服务计算集群上的工作？的相关文章

在 Numpy 中切片后确定结果数组的形状

如何确定非阻塞套接字是否真正连接？

python - 是否可以扩展 xml-rpc 可以序列化的事物集？

在python中将文本文件解析为列表

可以在 TensorFlow 中使用排名相关作为成本函数吗？

Python - 用逗号分割，跳过括号内的内容

如何从 Dockerfile 安装 Python 3.7 和 Pip

Python igraph：从图中删除顶点

azure 和 google 上的自定义联合代理

在径向（树）网络x图中查找末端节点（叶节点）

如何使用Python的super()来更新父值？

Python：计算数据帧列中所有行中特定字符的实例数

为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

在 MacO 和 Linux 上安装 win32com [重复]

Scipy 稀疏 Cumsum

Python组合目录中的所有csv文件并按日期时间排序

全局变量是 None 而不是实例 - Python

如何禁止 celery 中的 pickle 序列化

如何并行化 Azure ML 服务计算集群上的工作？

如何并行化 Azure ML 服务计算集群上的工作？ 的相关文章

如何并行化 Azure ML 服务计算集群上的工作？的相关文章