在 Kubernetes cron 作业中运行的应用程序无法连接到同一 Kubernetes 集群中的数据库

2023-12-08

我有一个 Kubernetes 集群,运行 PostgreSQL 数据库、Grafana 仪表板和一个在 Kubernetes 内每小时运行的 Python 单运行应用程序(构建为 Docker 映像)CronJob(见下面的清单)。此外,这一切都是使用 ArgoCD 和 Istio side-car 注入进行部署的。

我遇到的问题(如标题所示)是我的 Python 应用程序无法连接到集群中的数据库。这对我来说很奇怪,因为事实上仪表板,can连接到数据库,所以我不确定 Python 应用程序可能有什么不同。

以下是我的清单(做了一些更改以删除可识别信息):

内容database.yaml:

---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: database
  name: database
spec:
  replicas: 1
  selector:
    matchLabels:
      app: database
  strategy: {}
  template:
    metadata:
      labels:
        app: database
    spec:
      containers:
      - image: postgres:12.5
        imagePullPolicy: ""
        name: database
        ports:
        - containerPort: 5432
        env:
          - name: POSTGRES_DB
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_DB
          - name: POSTGRES_USER
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_USER
          - name: POSTGRES_PASSWORD
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_PASSWORD
        resources: {}
        readinessProbe:
          initialDelaySeconds: 30
          tcpSocket:
            port: 5432
      restartPolicy: Always
      serviceAccountName: ""
      volumes: null
status: {}
---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: database
  name: database
spec:
  ports:
  - name: "5432"
    port: 5432
    targetPort: 5432
  selector:
    app: database
status:
  loadBalancer: {}

内容dashboard.yaml:

---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: dashboard
  name: dashboard
spec:
  replicas: 1
  selector:
    matchLabels:
      app: dashboard
  strategy: {}
  template:
    metadata:
      labels:
        app: dashboard
    spec:
      containers:
      - image: grafana:7.3.3
        imagePullPolicy: ""
        name: dashboard
        ports:
          - containerPort: 3000
        resources: {}
        env:
          - name: POSTGRES_DB
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_DB
          - name: POSTGRES_USER
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_USER
          - name: POSTGRES_PASSWORD
            valueFrom:
              secretKeyRef:
                name: postgres-secret
                key: POSTGRES_PASSWORD
        volumeMounts:
          - name: grafana-datasource
            mountPath: /etc/grafana/provisioning/datasources
        readinessProbe:
          initialDelaySeconds: 30
          httpGet:
            path: /
            port: 3000
      restartPolicy: Always
      serviceAccountName: ""
      volumes:
        - name: grafana-datasource
          configMap:
            defaultMode: 420
            name: grafana-datasource
        - name: grafana-dashboard-provision
status: {}
---
apiVersion: v1
kind: Service
metadata:
  labels:
    app: dashboard
  name: dashboard
spec:
  ports:
  - name: "3000"
    port: 3000
    targetPort: 3000
  selector:
    app: dashboard
status:
  loadBalancer: {}

内容cronjob.yaml:

---
apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: python
spec:
  concurrencyPolicy: Replace
  # TODO: Go back to hourly when finished testing/troubleshooting
  # schedule: "@hourly"
  schedule: "*/15 * * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - image: python-tool:1.0.5
            imagePullPolicy: ""
            name: python
            args: []
            command:
              - /bin/sh
              - -c
              - >-
                echo "$(POSTGRES_USER)" > creds/db.creds;
                echo "$(POSTGRES_PASSWORD)" >> creds/db.creds;
                echo "$(SERVICE1_TOKEN)" > creds/service1.creds;
                echo "$(SERVICE2_TOKEN)" > creds/service2.creds;
                echo "$(SERVICE3_TOKEN)" > creds/service3.creds;
                python3 -u main.py;
                echo "Job finished with exit code $?";
            env:
              - name: POSTGRES_DB
                valueFrom:
                  secretKeyRef:
                    name: postgres-secret
                    key: POSTGRES_DB
              - name: POSTGRES_USER
                valueFrom:
                  secretKeyRef:
                    name: postgres-secret
                    key: POSTGRES_USER
              - name: POSTGRES_PASSWORD
                valueFrom:
                  secretKeyRef:
                    name: postgres-secret
                    key: POSTGRES_PASSWORD
              - name: SERVICE1_TOKEN
                valueFrom:
                  secretKeyRef:
                    name: api-tokens-secret
                    key: SERVICE1_TOKEN
              - name: SERVICE2_TOKEN
                valueFrom:
                  secretKeyRef:
                    name: api-tokens-secret
                    key: SERVICE2_TOKEN
              - name: SERVICE3_TOKEN
                valueFrom:
                  secretKeyRef:
                    name: api-tokens-secret
                    key: SERVICE3_TOKEN
          restartPolicy: OnFailure
          serviceAccountName: ""
status: {}

现在,正如我提到的,Istio 也是这张图片的一部分,因此我有一个用于仪表板的虚拟服务,因为它应该可以在集群外部访问,但仅此而已。

解决了所有这些问题后,我自己尝试解决这个问题:

  1. 确认CronJob使用正确的连接设置(即主机、数据库名称、用户名和密码)连接到数据库。

    为此,我将 echo 语句添加到CronJob部署显示用户名和密码(我知道,我知道),它们是预期值。我还知道这些是数据库的正确连接设置,因为我逐字使用它们将仪表板连接到数据库,这提供了成功的连接。

    Grafana仪表板的数据源设置:

    Connection settings used by Grafana data source

    来自 Python 应用程序的错误消息(显示在容器的 ArgoCD 日志中):

    Connection settings used by cron job

  2. 考虑到 Istio 可能会导致这个问题,我尝试禁用 Istio side-car 注入CronJob资源(通过将此注释添加到metadata.annotations部分:sidecar.istio.io/inject: false)但注释实际上从未出现在 Argo 日志中,并且当CronJob正在跑步。

  3. I tried kubectl exec正在进入CronJob正在运行 Python 脚本以进行更多调试的容器,但实际上从未能够进行调试,因为一旦发生连接错误,容器就会退出。

也就是说,我在这件事上已经把头撞到墙上了足够长的时间了。有人能发现我可能遗漏的内容并指出正确的方向吗?


我认为问题在于您的 pod 在 istio sidecar 准备好之前尝试连接到数据库。因此无法建立连接。

Istio 运行一个 init 容器来配置 pod 路由表,以便所有流量都通过 sidecar 路由。因此,如果 sidecar 未运行并且另一个 pod 尝试连接到数据库,则无法建立连接。

有两种解决方案。

首先,您的工作可以在调用之前等待例如 30 秒main.py使用一些睡眠命令。

或者你可以启用holdApplicationUntilProxyStarts。这样,直到 sidecar 运行后,主容器才会启动。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Kubernetes cron 作业中运行的应用程序无法连接到同一 Kubernetes 集群中的数据库 的相关文章

随机推荐