如何使用 Docker 和 DigitalOcean Spaces 部署 TensorFlow Serving

2024-06-19

如何配置 TensorFlow Serving 以使用存储在 DigitalOcean Spaces 中的文件？

重要的是解决方案：

提供对这两个配置的访问and模型文件
提供对数据的非公开访问

我已经配置了一个名为your_bucket_name在 DigitalOcean Spaces 中具有以下结构：

- your_bucket_name
  - config
    - batching_parameters.txt
    - monitoring_config.txt
    - models.config
  - models
    - model_1
      - version_1.1
        - variables
          - variables.data-00000-of-00001
          - variables.index
        - saved_model.pb
   - model_2
       - ...
   - model_3
       - ...

EDIT：自 TensorFlow 2.6 起，S3 支持已被弃用，并且 Docker 镜像也不再支持存储在 S3 上的模型 [参考 https://github.com/tensorflow/serving/issues/1930#issuecomment-1013710028]。（感谢@RonaldDas。）

HISTORY：TensorFlow Serving 支持与 Amazon S3 存储桶集成。由于 DigitalOcean Spaces 提供了类似的接口，因此可以通过 Docker 通过 S3 接口轻松运行 TensorFlow Servings 和 DigitalOcean Spaces。

为了使其他人更容易，我在下面详细介绍了您需要了解的有关运行服务器的所有信息：

1.环境变量（可选）

在您的环境中定义以下变量：

AWS_ACCESS_KEY_ID=...
AWS_SECRET_ACCESS_KEY=...

（这并不是绝对必要的，但定义这些变量可以使您的部署比将值硬编码到 docker-compose 文件中更安全。）

作为配置云存储桶的一部分，您会从 DigitalOcean Spaces 收到这些变量的值。

2、服务器

您可以使用 Docker 或 docker-compose 启动服务器：

2.1.使用 Docker

以下是从命令提示符启动服务器的最小 docker 命令：

docker run \
    -p 8500:8500 \
    -p 8501:8501 \
    -e AWS_ACCESS_KEY_ID=${AWS_ACCESS_KEY_ID} \
    -e AWS_REGION=nyc3 \
    -e AWS_SECRET_ACCESS_KEY=${AWS_SECRET_ACCESS_KEY} \
    -e S3_ENDPOINT=nyc3.digitaloceanspaces.com \
    tensorflow/serving \
    --model_config_file=s3://your_bucket_name/config/models.config

（要在 Windows 上运行此命令，您可能需要删除反引号换行符以使其成为单行命令。）

2.2.使用 docker-compose

这个 docker-compose 配置在服务器的配置方式上更加详细，但是您可以通过简单的方式使用这些选项docker命令也是如此。

version: "3"
services:
  tensorflow-servings:
    image: tensorflow/serving:latest
    ports:
      - 8500:8500
      - 8501:8501
    command:
      - --batching_parameters_file=s3://your_bucket_name/config/batching_parameters.txt
      - --enable_batching=true
      - --model_config_file=s3://your_bucket_name/config/only_toxic.config
      - --model_config_file_poll_wait_seconds=300
      - --monitoring_config_file=s3://your_bucket_name/config/monitoring_config.txt
      - --rest_api_timeout_in_ms=30000
    environment:
      - AWS_ACCESS_KEY_ID=${AWS_ACCESS_KEY_ID}
      - AWS_LOG_LEVEL=3
      - AWS_REGION=nyc3
      - AWS_SECRET_ACCESS_KEY=${AWS_SECRET_ACCESS_KEY}
      - S3_ENDPOINT=nyc3.digitaloceanspaces.com

这里降低了日志级别，因为有很多“连接已释放”和“无响应正文”消息，这些消息不是实际错误。（看GitHub 问题：使用 S3 时 AWS 库过于冗长 https://github.com/tensorflow/tensorflow/issues/21898更多细节。）

3.配置文件：

配置文件如下所示，它们是协议缓冲区：

3.1.模型配置

model_config_list {
  config {
    name: 'model_1'
    base_path: 's3://your_bucket_name/models/model_1/'
      model_platform: "tensorflow"
  },
  config {
    ...
  },
  config {
    ...
  }
}

3.2. batching_parameters.txt（可选）

该文件定义了 TensorFlow Serving 的指南；指导它在服务器中处理批处理的方式。

    max_batch_size { value: 1024 }
    batch_timeout_micros { value: 100 }
    num_batch_threads { value: 4 }
    pad_variable_length_inputs: true

3.3.监控配置.txt（可选）

该文件通过下面定义的端点提供各种统计数据。

prometheus_config {
  enable: true,
  path: "/monitoring/metrics"
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)