工作流任务调度系统:Apache DolphinScheduler

2023-11-12

官网     |     GitHub        

目录



1 概述

Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

DolphinScheduler是今年(2019年)中国易观公司开源的一个调度系统,在今年美国时间2019年8月29号,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,根据Apache基金会邮件列表显示,在包含11个约束性投票(binding votes)和2个无约束性投票(non-binding votes)的投票全部持赞同意见,无弃权票和反对票,投票顺利通过,这样便以全票通过的优秀表现正式成为了Apache孵化器项目!

1.1 背景

在2017年,易观在运营自己6.8Pb大小、6.02亿月活、每天近万个调度任务的大数据平台时,受到ETL复杂的依赖关系、平台易用性、可维护性及二次开发等方面掣肘,易观的技术团队渴望找到一个具有以下功能的数据调度工具:

  • 易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员,无法编写代码的人也可以使用此工具进行ETL操作,例如系统管理员和分析师;
  • 解决“复杂任务依赖”问题,并且可以实时监视ETL运行状态;
  • 支持多租户;
  • 支持许多任务类型:Shell,MR,Spark,SQL(mysql,postgresql,hive,sparksql),Python,Sub_Process,Procedure等;
  • 支持HA和线性可扩展性。

易观技术团队意识到现有开源项目没有能够达到他们要求的,因此决定自行开发这个工具。他们在2017年底设计了DolphinScheduler的主要架构;2018年5月完成第一个内部使用版本,后来又迭代了几个内部版本后,系统逐渐稳定下来。

这里介绍一下DolphinScheduler易观技术团队,他们是一支来自百度、阿里、百分点、Ptmind、热云等团队的“数据极客”,秉持易观“让数据能力平民化”的初心,积极拥抱开源,曾贡献过Presto Hbase Connector, Presto Kudu Connector等令开发者称赞的项目。这次他们在公司的支持下,积极地将自己开发的调度工具推动开源,旨在回馈开源的同时,助力打造一个更为强大的开源生态。如果跃跃欲试的想去贡献代码的,贡献流程可以参考这篇博客:分布式任务调度EasyScheduler贡献代码流程

团队在2019年3月初,小范围(10多家公司)开放了DS的种子用户试用,得到了非常正能量的反馈,在4月初的正式对外开放源码后,很快就获得了许多开发人员的关注兴趣,目前github上的star现在已超过1700个,参与开发和使用的公司包括嘀嗒出行、雪球、凤凰金融、水滴互助、华润万家等,更详细的可以查看:Wanted: Who is using DolphinScheduler #57

1.2 特点

DolphinScheduler提供了许多易于使用的功能,可加快数据ETL工作开发流程的效率。其主要特点如下:

  • 通过拖拽以DAG 图的方式将 Task 按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态;
  • 支持丰富的任务类型;
  • 支持工作流定时调度、依赖调度、手动调度、手动暂停/停止/恢复,同时支持失败重试/告警、从指定节点恢复失败、Kill 任务等操作;
  • 支持工作流全局参数及节点自定义参数设置;
  • 支持集群HA,通过 Zookeeper实现 Master 集群和 Worker 集群去中心化
  • 支持工作流运行历史树形/甘特图展示、支持任务状态统计、流程状态统计;
  • 支持补数,并行或串行回填数据。

2 系统架构

2.1 名词解释

  • 流程定义:通过拖拽任务节点并建立任务节点的关联所形成的可视化DAG
  • 流程实例:流程实例是流程定义的实例化,可以通过手动启动或定时调度生成,流程定义每运行一次,产生一个流程实例
  • 任务实例:任务实例是流程定义中任务节点的实例化,标识着具体的任务执行状态
  • 任务类型: 目前支持有SHELL、SQL、SUB_PROCESS(子流程)、PROCEDURE、MR、SPARK、PYTHON、DEPENDENT(依赖),同时计划支持动态插件扩展,注意:其中子 SUB_PROCESS 也是一个单独的流程定义,是可以单独启动执行的
  • 调度方式: 系统支持基于cron表达式的定时调度和手动调度。命令类型支持:启动工作流、从当前节点开始执行、恢复被容错的工作流、恢复暂停流程、从失败节点开始执行、补数、定时、重跑、暂停、停止、恢复等待线程。其中 恢复被容错的工作流 和 恢复等待线程 两种命令类型是由调度内部控制使用,外部无法调用
  • 定时调度:系统采用 quartz 分布式调度器,并同时支持cron表达式可视化的生成
  • 依赖:系统不单单支持 DAG 简单的前驱和后继节点之间的依赖,同时还提供任务依赖节点,支持流程间的自定义任务依赖
  • 优先级 :支持流程实例和任务实例的优先级,如果流程实例和任务实例的优先级不设置,则默认是先进先出
  • 邮件告警:支持 SQL任务 查询结果邮件发送,流程实例运行结果邮件告警及容错告警通知
  • 失败策略:对于并行运行的任务,如果有任务失败,提供两种失败策略处理方式,继续是指不管并行运行任务的状态,直到流程失败结束。结束是指一旦发现失败任务,则同时Kill掉正在运行的并行任务,流程失败结束
  • 补数:补历史数据,支持区间并行和串行两种补数方式

2.2 架构

在这里插入图片描述

关于更详细的系统架构设计可以查看官方提供的刘小春(xiaochun.liu)一篇博客 DolphinScheduler系统架构设计


3 部署

3.1 后端部署

后端有2种部署方式,分别为自动化部署和编译源码部署。下面主要介绍下载编译后的二进制包一键自动化部署的方式完成DolphinScheduler后端部署。

3.1.1 基础软件安装

  • Mysql (5.5+) : 必装
  • JDK (1.8+) : 必装
  • ZooKeeper(3.4.6+) :必装
  • Hadoop(2.6+) :选装, 如果需要使用到资源上传功能,MapReduce任务提交则需要配置Hadoop(上传的资源文件目前保存在Hdfs上)
  • Hive(1.2.1) : 选装,hive任务提交需要安装
  • Spark(1.x,2.x) : 选装,Spark任务提交需要安装
  • PostgreSQL(8.2.15+) : 选装,PostgreSQL PostgreSQL存储过程需要安装
编译时

如果是编译源码

注意:EasyScheduler本身不依赖Hadoop、Hive、Spark、PostgreSQL,仅是会调用他们的Client,用于对应任务的运行。

3.1.2 创建部署用户

在所有需要部署调度的机器上创建部署用户(本次以node2、node3节点为例),因为worker服务是以 sudo -u {linux-user} 方式来执行作业,所以部署用户需要有 sudo 权限,而且是免密的。

# 1 创建用户
useradd escheduler

# 2 设置 escheduler 用户密码
passwd escheduler

# 3 赋予sudo权限。编辑系统 sudoers 文件
# 如果没有编辑权限,以root用户登录,赋予w权限
# chmod 640 /etc/sudoers
vi /etc/sudoers

# 大概在100行,在root下添加如下
escheduler  ALL=(ALL)       NOPASSWD: ALL

# 并且需要注释掉 Default requiretty 一行。如果有则注释,没有没有跳过
#Default requiretty

########### end ############

# 4 切换到 escheduler 用户
su escheduler

3.1.3 下载并解压

# 1 创建安装目录
sudo mkdir /opt/DolphinScheduler

# 2 将DolphinScheduler赋予给escheduler用户
sudo chown -R escheduler:escheduler /opt/DolphinScheduler

# 3 下载后端。简称escheduler-backend
cd /opt/DolphinScheduler
wget https://github.com/apache/incubator-dolphinscheduler/releases/download/1.1.0/escheduler-1.1.0-backend.tar.gz

# 4 解压
mkdir escheduler-backend
mkdir escheduler
tar -zxf escheduler-1.1.0-backend.tar.gz -C escheduler
cd escheduler/

# 5 目录介绍
 [escheduler@node2 escheduler]$ tree -L 1
 .
 ├── bin           # 基础服务启动脚本
 ├── conf          # 项目配置文件
 ├── install.sh    # 一键部署脚本
 ├── lib           # 项目依赖jar包,包括各个模块jar和第三方jar
 ├── script        # 集群启动、停止和服务监控启停脚本
 └── sql           # 项目依赖sql文件
 5 directories, 1 file

3.1.4 针对escheduler用户ssh免密配置

# 1 配置SSH免密
# 1.1 node2 节点执行
#   有提示直接回车
ssh-keygen -t rsa
# 拷贝到node2和node3。提示输入密码时,输入 escheduler 用户的密码
ssh-copy-id -i ~/.ssh/id_rsa.pub escheduler@node2
ssh-copy-id -i ~/.ssh/id_rsa.pub escheduler@node3

# 1.2 node3 节点执行
#   有提示直接回车
ssh-keygen -t rsa
# 拷贝到node2和node3。提示输入密码时,输入 escheduler 用户的密码
ssh-copy-id -i ~/.ssh/id_rsa.pub escheduler@node2
ssh-copy-id -i ~/.ssh/id_rsa.pub escheduler@node3

3.1.5 数据库初始化

执行以下命令创建数据库和账号

CREATE DATABASE escheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
-- 设置数据用户escheduler的访问密码为 escheduler,并且不对访问的ip做限制
-- 测试环境将访问设置为所有,如果是生产,可以限制只能子网段的ip才能访问('198.168.33.%')
GRANT ALL PRIVILEGES ON escheduler.* TO 'escheduler'@'%' IDENTIFIED BY 'escheduler';
flush privileges;

创建表和导入基础数据 修改vim /opt/DolphinScheduler/escheduler/conf/dao/data_source.properties中的下列属性

# 大概在第 4 行修改MySQL数据库的url
 spring.datasource.url=jdbc:mysql://node1:3306/escheduler?characterEncoding=UTF-8
# 用户名。
spring.datasource.username=escheduler
# 密码。填入上一步IDENTIFIED BY 后面设置的密码
spring.datasource.password=escheduler

执行创建表和导入基础数据脚本

# 前面已进入/opt/DolphinScheduler/escheduler-backend目录下,然后执行数据初始化脚本
# 最后看到  create escheduler success 表示数据库初始化成功
sh ./script/create_escheduler.sh

3.1.6 修改部署目录权限及运行参数

# 1 修改conf/env/目录下的 .escheduler_env.sh 环境变量
vim conf/env/.escheduler_env.sh

# 将对应的修改为自己的组件或框架的路径
export HADOOP_HOME=/opt/hadoop-3.1.2
export HADOOP_CONF_DIR=/opt/hadoop-3.1.2/etc/hadoop
export SPARK_HOME1=/opt/spark-2.3.4-bin-hadoop2.7
#export SPARK_HOME2=/opt/soft/spark2
#export PYTHON_HOME=/opt/soft/python
export JAVA_HOME=/usr/local/zulu8/
export HIVE_HOME=/opt/apache-hive-3.1.1-bin
#export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$SPARK_HOME2/bin:$PYTHON_HOME:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH
export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH

# ==========
# CDH 版
# ==========
#export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
#export HADOOP_CONF_DIR=/etc/hadoop/conf.cloudera.yarn
#export SPARK_HOME1=/opt/cloudera/parcels/CDH/lib/spark
##export SPARK_HOME2=/opt/soft/spark2
##export PYTHON_HOME=/opt/soft/python
#export JAVA_HOME=/usr/local/zulu8/
#export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hive
##export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$SPARK_HOME2/bin:$PYTHON_HOME:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH
#export PATH=$HADOOP_HOME/bin:$SPARK_HOME1/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH

修改 install.sh中的各参数,替换成自身业务所需的值,这里只列出了重要的修改项,其它默认不用改即可。

# mysql配置
# mysql 地址,端口
mysqlHost="192.168.33.3:3306"

# mysql 数据库名称
mysqlDb="escheduler"
 
# mysql 用户名
mysqlUserName="escheduler"

# mysql 密码
# 注意:如果有特殊字符,请用 \ 转移符进行转移
mysqlPassword="escheduler"

# conf/config/install_config.conf配置
# 注意:安装路径,不要当前路径(pwd)一样。一键部署脚本分发到其它节点时的安装路径
installPath="/opt/DolphinScheduler/escheduler-backend"

# 部署用户
# 注意:部署用户需要有sudo权限及操作hdfs的权限,如果开启hdfs,根目录需要自行创建
deployUser="escheduler"

# zk集群
zkQuorum="192.168.33.3:2181,192.168.33.6:2181,192.168.33.9:2181"

# 安装hosts
# 注意:安装调度的机器hostname列表,如果是伪分布式,则只需写一个伪分布式hostname即可
ips="192.168.33.6,192.168.33.9"

# conf/config/run_config.conf配置
# 运行Master的机器
# 注意:部署master的机器hostname列表
masters="192.168.33.6"

# 运行Worker的机器
# 注意:部署worker的机器hostname列表
workers="192.168.33.6,192.168.33.9"

# 运行Alert的机器
# 注意:部署alert server的机器hostname列表
alertServer="192.168.33.6"

# 运行Api的机器
# 注意:部署api server的机器hostname列表
apiServers="192.168.33.6"

# 用到邮箱发送邮件时务必配置上邮件服务,否则执行结果发送时会提示失败
# cn.escheduler.server.worker.runner.TaskScheduleThread:[249] - task escheduler # failure : send mail failed!
java.lang.RuntimeException: send mail failed!
# alert配置
# 邮件协议,默认是SMTP邮件协议
mailProtocol="SMTP"
# 邮件服务host。以网易邮箱为例。QQ邮箱的服务为 smtp.qq.com
mailServerHost="smtp.163.com"
# 邮件服务端口。SSL协议端口 465/994,非SSL协议端口 25
mailServerPort="465"
# 发送人。
# 网易邮箱在 客户端授权密码 获取,具体可以看下图
mailSender="*******yore@163.com"
# 发送人密码
mailPassword="yore***"

# 下载Excel路径
xlsFilePath="/home/escheduler/xls"

#是否启动监控自启动脚本
# 开关变量,在1.0.3版本中增加,控制是否启动自启动脚本(监控master,worker状态,如果掉线会自动启动) 
# 默认值为"false"表示不启动自启动脚本,如果需要启动改为"true"
monitorServerState="true"

# 资源中心上传选择存储方式:HDFS,S3,NONE
resUploadStartupType="HDFS"

# 如果resUploadStartupType为HDFS,defaultFS写namenode地址,支持HA,需要将core-site.xml和hdfs-site.xml放到conf目录下
# 如果是S3,则写S3地址,比如说:s3a://escheduler,注意,一定要创建根目录/escheduler
defaultFS="hdfs://192.168.33.3:8020"

# resourcemanager HA配置,如果是单resourcemanager,这里为yarnHaIps=""
yarnHaIps="192.168.33.3"

# 如果是单 resourcemanager,只需要配置一个主机名称,如果是resourcemanager HA,则默认配置就好
singleYarnIp="192.168.33.3"

# common 配置
# 程序路径
programPath="/opt/DolphinScheduler/escheduler-backend"

#下载路径
downloadPath="/tmp/escheduler/download"

# 任务执行路径
execPath="/tmp/escheduler/exec"

# SHELL环境变量路径
shellEnvPath="$installPath/conf/env/.escheduler_env.sh"

# 资源文件的后缀
resSuffixs="txt,log,sh,conf,cfg,py,java,sql,hql,xml"

# api 配置
# api 服务端口
apiServerPort="12345"

如果使用hdfs相关功能,需要拷贝hdfs-site.xml和core-site.xml到conf目录下

cp $HADOOP_HOME/etc/hadoop/hdfs-site.xml conf/
cp $HADOOP_HOME/etc/hadoop/core-site.xml conf/

网易云邮箱服务客户端用户名和密码获取,开启客户端授权码,并获取。
网易云邮箱服务设置

如果 DolphinScheduler 已经安装,则可以通过设置部署的后端服务下的conf/alert.properties文件

#alert type is EMAIL/SMS
alert.type=EMAIL

# mail server configuration
mail.protocol=SMTP
# 以网易邮箱为例
mail.server.host=smtp.163.com
#  SSL协议端口 465/994,非SSL协议端口 25
mail.server.port=465
mail.sender=*******yore@163.com
mail.passwd=yore***

# TLS
mail.smtp.starttls.enable=false
# SSL
mail.smtp.ssl.enable=true

#xls.file.path=/home/escheduler/xls
xls.file.path=/home/escheduler/xls

# Enterprise WeChat configuration
enterprise.wechat.corp.id=xxxxxxxxxx
enterprise.wechat.secret=xxxxxxxxxx
enterprise.wechat.agent.id=xxxxxxxxxx
enterprise.wechat.users=xxxxx,xxxxx
enterprise.wechat.token.url=https://qyapi.weixin.qq.com/cgi-bin/gettoken?corpid=$corpId&corpsecret=$secret
enterprise.wechat.push.url=https://qyapi.weixin.qq.com/cgi-bin/message/send?access_token=$token
enterprise.wechat.team.send.msg={\"toparty\":\"$toParty\",\"agentid\":\"$agentId\",\"msgtype\":\"text\",\"text\":{\"content\":\"$msg\"},\"safe\":\"0\"}
enterprise.wechat.user.send.msg={\"touser\":\"$toUser\",\"agentid\":\"$agentId\",\"msgtype\":\"markdown\",\"markdown\":{\"content\":\"$msg\"}}

3.1.7 执行脚本一键部署

# 1 一键部署并启动
sh install.sh

# 2 查看日志
[escheduler@node2 escheduler-backend]$ tree /opt/DolphinScheduler/escheduler-backend/logs
/opt/DolphinScheduler/escheduler-backend/logs
├── escheduler-alert.log
├── escheduler-alert-server-node-b.test.com.out
├── escheduler-alert-server.pid
├── escheduler-api-server-node-b.test.com.out
├── escheduler-api-server.log
├── escheduler-api-server.pid
├── escheduler-logger-server-node-b.test.com.out
├── escheduler-logger-server.pid
├── escheduler-master.log
├── escheduler-master-server-node-b.test.com.out
├── escheduler-master-server.pid
├── escheduler-worker.log
├── escheduler-worker-server-node-b.test.com.out
├── escheduler-worker-server.pid
└── {processDefinitionId}
    └── {processInstanceId}
        └── {taskInstanceId}.log


# 3 查看Java进程
# 3.1 node2
# jps -l | grep escheduler
[escheduler@node2 escheduler-backend]$ jps
31651 WorkerServer              # worker服务
31784 ApiApplicationServer      # api服务
31609 MasterServer              # master服务
31743 AlertServer               # alert服务
31695 LoggerServer              # logger服务

# 3.2 node3
[escheduler@cdh3 DolphinScheduler]$ jps
26678 WorkerServer
26718 LoggerServer

错误1:如果查看/opt/DolphinScheduler/escheduler-backend/logs/escheduler-api-server-*.out日志报如下错误

nohup: failed to run command ‘/bin/java’: No such file or directory

解决:将JAVA_HOME/bin下的java软连接到/bin下。(每个dolphinscheduler节点都执行)

ln -s $JAVA_HOME/bin/java /bin/java

3.1.8 服务进程的说明

由前面我们可以看到,后端服务正常启动后,共有 5 个进程:WorkerServerApiApplicationServerMasterServerAlertServerLoggerServer 。另外还有一个 UI,具体说明如下:

服务 说明
MasterServer 主要负责 DAG 的切分和任务状态的监控
WorkerServer/
LoggerServer
主要负责任务的提交、执行和任务状态的更新。LoggerServer用于Rest Api通过 RPC 查看日志
ApiServer 提供Rest Api服务,供UI进行调用
AlertServer 提供告警服务
UI 前端页面展示

3.1.9 dolphinscheduler后端服务启停

# 启动
/opt/DolphinScheduler/escheduler-backend/script/start_all.sh

# 停止
/opt/DolphinScheduler/escheduler-backend/script/stop_all.sh

3.2 前端部署

前端有3种部署方式,分别为自动化部署,手动部署和编译源码部署。这里主要使用自动化脚本方式部署DolphinScheduler前端服务。

3.2.1 下载并解压

# 1 下载 UI 前端。简称escheduler-ui
# 在node2节点下的 /opt/DolphinScheduler 
wget https://github.com/apache/incubator-dolphinscheduler/releases/download/1.1.0/escheduler-1.1.0-ui.tar.gz

# 2 解压
mkdir escheduler-ui
tar -zxf escheduler-1.1.0-ui.tar.gz -C escheduler-ui
cd escheduler-ui

3.2.2 执行自动化部署脚本

执行自动化部署脚本。脚本会提示一些参数,根据提示完成安装。

[escheduler@cdh2 escheduler-ui]$ sudo ./install-escheduler-ui.sh
欢迎使用easy scheduler前端部署脚本,目前前端部署脚本仅支持CentOS,Ubuntu
请在 escheduler-ui 目录下执行
linux
请输入nginx代理端口,不输入,则默认8888 :8888
请输入api server代理ip,必须输入,例如:192.168.xx.xx :192.168.33.6
请输入api server代理端口,不输入,则默认12345 :12345
=================================================
        1.CentOS6安装
        2.CentOS7安装
        3.Ubuntu安装
        4.退出
=================================================
请输入安装编号(1|2|3|4):2

…… 

Complete!
port option is needed for add
FirewallD is not running
setenforce: SELinux is disabled
请浏览器访问:http://192.168.33.6:8888

使用自动化部署脚本会检查系统环境是否安装了Nginx,如果没有安装则会通过网络自动下载Nginx包安装,通过引导设置后的Nginx配置文件为/etc/nginx/conf.d/escheduler.conf。但生产环境一般法法访问外网,此时可以通过手动离线安装Nginx,然后进行一些配置即可。

# 1 下载 Nginx 离线安装包
# 例如下载 Cento7 CPU指令为 x86版本的 
wget http://nginx.org/packages/mainline/centos/7/x86_64/RPMS/nginx-1.17.6-1.el7.ngx.x86_64.rpm

# 2 安装
rpm -ivh nginx-1.17.6-1.el7.ngx.x86_64.rpm

下面在手动再Nginx中添加一个DolphinSchedule 服务配置。因为在 /etc/nginx/nginx.conf(Nginx默认加载的配置文件)中有include /etc/nginx/conf.d/*.conf ;,所以我们可以在 /etc/nginx/conf.d/ 下创建一个 conf后缀的配置文件,配置文件的文件名随意,例如叫 escheduler.conf。这里需要特别注意的是在 /etc/nginx/nginx.conf 配置文件中前面有一个配置 user nginx 如果启动Nginx的用户不是 nginx,一定要修改为启动Nginx的用户,否则代理的服务会报 403 的错误。这里我们在/etc/nginx/conf.d/escheduler.conf配置如下内容,重点在 server 中配置 listen(DolphinSchedule Web UI 的端口)、**root **(解压的escheduler-ui 中的 dist 路径 )、proxy_pass (DolphinSchedule后台接口的地址)等信息。最后重启Nginx执行命令 systemctl restart nginx

server {
    listen       8888;  # 访问端口
    server_name  localhost;
    #charset koi8-r;
    #access_log  /var/log/nginx/host.access.log  main;
    location / {
        root    /opt/DolphinScheduler/escheduler-ui/dist; # 上面前端解压的dist目录地址(自行修改)
        index  index.html index.html;
    }
    location /escheduler {
        proxy_pass http://192.168.33.6:12345; # 接口地址(自行修改)
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header x_real_ipP $remote_addr;
        proxy_set_header remote_addr $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_http_version 1.1;
        proxy_connect_timeout 4s;
        proxy_read_timeout 30s;
        proxy_send_timeout 12s;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
    #error_page  404              /404.html;
    # redirect server error pages to the static page /50x.html
    #
    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   /usr/share/nginx/html;
    }
}

问题1:上传文件大小限制
编辑配置文件 vim /etc/nginx/nginx.conf

# 更改上传大小
client_max_body_size 1024m

3.2.3 dolphinscheduler前端服务启停

# 1 启动
systemctl start nginx

# 2 状态
systemctl status nginx

# 3 停止
#nginx -s stop
systemctl stop nginx

4 快速开始

浏览器访问http://192.168.33.6:8888,如下图所示。
在这里插入图片描述
在上述登陆页面默认的账户的用户名为 admin 密码为escheduler123,这个账户也是系统默认的管理员账户,登陆成功后可以修改密码。成功登陆有主页面如下所示
在这里插入图片描述

创建一个队列。队列管理 -> 创建队列 -> 输入名称和队列值 -> 提交。
在这里插入图片描述

创建租户。租户管理 -> 创建租户 -> 输入租户编码、租户名称和队列值 -> 提交。
在这里插入图片描述

创建普通用户。用户管理 -> 创建用户 -> 输入用户名称、密码、租户名和邮箱,手机号选填 -> 提交。
在这里插入图片描述

创建警告组。警告组管理 -> 创建警告组 -> 输入组名称、组类型(邮件、短信)-> 提交。
在这里插入图片描述
使用普通用户登录(用户名和密码都是demo)。点击右上角用户名“退出”,重新使用普通用户登录。登陆成功的首页如下。
在这里插入图片描述

创建一个项目。点击页面头部的项目管理,进入项目页面,再点击创建项目,创建一个DolphinScheduler任务调度项目,在弹出的框中输入项目名称和描述,例如这里创建一个hello_dolphinScheduler名称的项目,最后点击提交。
在这里插入图片描述

项目创建完毕后,在项目管理页面点击我们创建的项目,进入该项目的管理页面。点击工作流定义 -> 创建工作流 -> 在左侧工具栏可以选择(SHELL、USB_PROCESS、PROCEDURE、SQL、SPARK、MapReduce、PYTHON、DEPENDENT)。拖拽SHELL节点到画布,新增一个Shell任务,填写 节点名称描述脚本 字段;选择 任务优先级 ,级别高的任务在执行队列中会优先执行,相同优先级的任务按照先进先出的顺序执行;超时告警, 填写 超时时长 ,当任务执行时间超过超时时长可以告警并且超时失败。(注意:这里的节点不是机器的节点,而应该是工作流的节点)
在这里插入图片描述

确认修改完毕后,点击保存,此时设置DAG图名称,选择组租户,最后添加。
在这里插入图片描述

未上线状态的工作流定义可以编辑,但是不可以运行,所以要执行工作流,需要先上线工作流
在这里插入图片描述
点击”运行“,执行工作流。运行参数说明:

  • 失败策略:当某一个任务节点执行失败时,其他并行的任务节点需要执行的策略。”继续“表示:其他任务节点正常执行,”结束“表示:终止所有正在执行的任务,并终止整个流程。
  • 通知策略:当流程结束,根据流程状态发送流程执行信息通知邮件。
  • 流程优先级:流程运行的优先级,分五个等级:最高(HIGHEST),高(HIGH),中(MEDIUM),低(LOW),最低(LOWEST)。级别高的流程在执行队列中会优先执行,相同优先级的流程按照先进先出的顺序执行。
  • worker分组: 这个流程只能在指定的机器组里执行。默认是Default,可以在任一worker上执行。
  • 通知组: 当流程结束,或者发生容错时,会发送流程信息邮件到通知组里所有成员。
  • 收件人:输入邮箱后按回车键保存。当流程结束、发生容错时,会发送告警邮件到收件人列表。
  • 抄送人:输入邮箱后按回车键保存。当流程结束、发生容错时,会抄送告警邮件到抄送人列表。
    在这里插入图片描述

点击任务实例可以查看每个任务的列表信息,点击操作栏,可以看到任务执行的日志信息。
在这里插入图片描述

5 Worker分组和数据源添加

worker分组,提供了一种让任务在指定的worker上运行的机制。管理员创建worker分组,在任务节点和运行参数中设置中可以指定该任务运行的worker分组,如果指定的分组被删除或者没有指定分组,则该任务会在任一worker上运行。worker分组内多个ip地址(不能写别名),以英文逗号分隔。

用管理员用户(admin)登陆Web页面,点击 安全中心 -> Worker分组管理,如下图所示。
分组管理

创建Worker分组。填写组名称和IP,IP可以是多个,用英文逗号分割即可。
设置IP的分组
例如下图,我们将Worker的IP分为了两组。
 Worker 分组

6 添加数据源

脚本(一般是SQL脚本)执行时可能会用到一些数据源,例如MySQL、PostgreSQL、Hive、Impala、Spark、ClickHouse、Oracle、SQL Server,通过添加数据源在DolphinScheduler页面编写Job时直接选择,不用再指定驱动、连接、用户名和密码等信息,可以快速创建一个SQL脚本的工作流Job,同时这个数据源时用户隔离的,每个用户添加的数据源相互独立(admin用户除外,管理员用户可以看到所有用户添加的数据源)。

下面我们以Impala为例,选择页面头部的 数据源中心 -> 添加数据源,会弹出下图 编辑数据源 弹窗,主要填写如下几项。因为Impala没有设置密码,用户为必填可以任意添加一个,在jdbc连接参数中必须添加 {"auth":"noSasl"}参数,否则会一直等待确认认证。
在这里插入图片描述
其它数据源类似,例如我们添加如下几个数据源,后面会用到ClickHouse(详见我的另一篇博客 ClickHouse的安装(含集群方式)和使用)。
在这里插入图片描述

7 实例

在项目管理下,点击工作流定义,在工具栏处选择最后一行的DEPENDENT定义一个带依赖的工作流Job,拖动到编辑面板,设置task的节点名为cdh2-task1,在 Worker分组 中选择执行的Worker节点为cdh2,编辑完这个Task后选择 确认添加。选择执行的Worker分组名,这里选择前面设置的cdh2组,确认添加,如下图所示。同样的方式设置第二个依赖Task,将其Worker分组设置到cdh3节点,并添加依赖为
在这里插入图片描述
接下来设置两个Shell执行脚本,cdh2-task11上执行task11,主要是在cdh2上执行一个hostname命令,打印执行节点的HostName。同样的方式,在依赖节点cdh3-task21上设置在cdh3执行,也是执行hostname命令。最后再在依赖节点cdh3-task21上添加一个SQL脚本,查询我们的豆瓣电影数据,具体操作如下

  • 在工具栏拖拽添加一个SQL脚本Task节点;
  • 节点名称可以叫:ck-task01,并添加描述信息;
  • Worker分组:cdh3
  • 数据源:CLICKHOUSE clickhouse-cdh3
  • sql类型选择查询表格;
  • 邮件信息:填写主题收件人邮箱、抄送人邮箱;
  • sql语句:
SELECT m.id,m.movie_name,m.rating_num,m.rating_people,q.rank,q.quote FROM movie m
LEFT JOIN quote q
ON q.id=m.id
ORDER BY m.rating_num DESC,m.rating_people DESC LIMIT 10;

各个task编写完毕后,选择右上角的 选择线条连接,工作流编写完毕后如下图,最后点击保存,输入DAG图名称,并选择租户,选择添加保存。
工作流DAG图
回到工作流定义,可以看到新添加的当前用户的所有工作流列表,点击右侧的操作栏的 上线,然后点击 运行 执行我们的工作流。当然这里也可以添加 定时 调度。
工作流列表
点击运行后,可以在 工作流实例 页面看到当前运行的Job的状态信息。每个工作可能会有多个Task构成,查看Task的执行信息可以在 任务实例 页面查看,操作栏可以查看这个task的执行日志信息。如果执行成功后,可以选择工作流的甘特图,在时间轴上查看执行状况。
工作流执行状态的甘特图
也可以查看工作流的执行的树形图信息,如下图。
工作流执行状态的属性图
运行成功后填写的收件箱会接收到执行结果的一封邮件,这封邮件中包含了脚本执行的结果。
邮箱中收到的结果的邮件

8 与 Azkaban 的对比

Class Item DolphinScheduler Azkaban
稳定性 单点故障 去中心化的多 Master 和多 Worker 是,单个 Web 和调度程序组合节点
  HA额外要求 不需要(本身就支持HA) DB
  过载处理 任务队列机制,单个机器上可调度的任务数量可以灵活配置,当任务过多时会缓存在任务队列里,不会造成机器卡死 任务太多会卡死服务器
易用性 DAG监控界面 任务状态、任务类型、重试次数、任务运行机器、可视化变量等关键信息一目了然 只能看到任务状态
  可视化流程定义 是,所有流程定义操作都是可视化的,通过拖拽任务来绘制DAG,配置数据源及资源,同时对于第三方系统提供API方式的操作 否,通过自定义DSL绘制DAG打包上传
  快速部署 一键部署 集群化部署,复杂
功能 是否能暂停和恢复 支持暂停、恢复操作 否,只能先将工作流杀死再重新运行
  是否支持多租户 支持。DolphinScheduler上的用户可以通过租户和Hadoop用户实现多对一或一对一的映射关系,这对于大数据作业上的调度是非常重要的
  任务类型 支持传统的shell任务,同时支持大数据平台任务调度MR、Spark、SQL(MySQL、PostgreSQL、Hive、SparkSQL、Impala、ClickHouse、Oracle)、Python、Procedure、Sub_Process shell、gobblin、hadoopJava、Java、Hive、Pig、Spark、hdfsToTeradata、teradataToHdfs
  契合度 支持大数据作业Spark、Hive、MR的调度,同时由于支持多租户,于大数据业务更加契合 由于不支持多租户,在大数据平台业务使用上不够灵活
扩展性 是否支持自定义任务类型
  是否支持集群扩展 是,调度器使用分布式调度,整体的调度能力会随着集群的规模线性增长,Master和Worker支持动态上下线 是,但是复杂,Executor水平扩展

9 小节

Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,从上面的安装可以看到这个调度系统集成了ZooKeeper,很好的实现了去中心化,每个角色的服务可以起多个,从znode上可以看到mastersworkers的一些元信息都注册在了上面,交由ZK去选举,当然它也是一个分布式的。如果某个服务挂了,ZooKeeper会在剩下的其它节点进行选举,例如当某些节点的Worker服务挂了,我们不用做任何处理,DolphinScheduler上依然可以正常提交和执行工作,在它的监控中心的页面可以看到,系统自动选举出了一个新的Work节点。

# znode上的信息
[zk: localhost:2181(CONNECTED) 1] ls /escheduler
[tasks_queue, dead-servers, masters, lock, workers, tasks_kill]

监控中心

尤其可以多Worker进行分组以及添加数据源的功能,可以指定Wroker节点,直接指定改用户下的数据,执行SQL脚本,同时页面增加的监控中心、任务状态统计、流程状态统计、流程定义统计等也能很好的帮助我们管理和查看任务执行的信息和集群的状态。


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

工作流任务调度系统:Apache DolphinScheduler 的相关文章

  • 现在还有人使用Excel表格做进销存管理吗?

    当然还是有人在使用Excel表格做进销存管理的 比如一些规模小的个体户或小微企业 使用Excel做进销存对这部分群体来说是合理的选择 然而 需要注意的是 随着 企业规模的扩大 Excel的局限性也会显现出来 容易出错 人为操作和数据输入错误
  • 期权怎么开户:期权开户免费吗,需要什么样的门槛?

    期权开户是免费的 只有交易才会产生费用 开通期权账户需要满足50万的资金 以及融资融券交易经验或者金融期货交易经验 当然也有免50万门槛的开户方式 下文为大家科普期权怎么开户啊 期权开户免费么 一般情况下 期权是可以通过在营业部网点进行开户
  • API接口:技术、应用与实践

    随着数字化时代的到来 API接口在软件开发和数据交互中扮演着越来越重要的角色 本文深入探讨了API接口的基本概念 技术原理 设计方法 最佳实践以及在各行业的应用案例 关键词 API接口 软件开发 数据交互 技术原理 设计方法 一 引言 随着
  • 多个应用程序服务器中的相同 Quartz.Net 调度程序。

    我是 Quartz NET v 3 0 3 中的新成员 我有控制台应用程序 它是石英主机和广播tcp x 555 QuartzScheduler 在我的公司 我们有 2 台应用程序服务器机器 它们本身就是主从服务器 如果主应用程序关闭 则从
  • 机器智能与人类智能的合作:认知能力的提升

    1 背景介绍 在过去的几十年里 人工智能 AI 技术的发展取得了显著的进展 从早期的规则引擎和专家系统到现代的深度学习和神经网络 AI已经成功地解决了许多复杂的问题 然而 尽管如此 人工智能仍然远远低于人类智能 人类智能的强大之处在于其认知
  • 深度强化学习的核心算法:从QLearning到Deep QNetwork

    1 背景介绍 深度强化学习 Deep Reinforcement Learning DRL 是一种通过智能体与环境的互动学习的方法 它可以帮助智能体在没有明确指导的情况下学习如何执行最佳的动作 从而最大化收益 深度强化学习结合了强化学习 R
  • 心灵与计算机:解密情感处理

    1 背景介绍 情感处理是人工智能领域中一个重要的研究方向 它旨在使计算机能理解 识别和处理人类的情感 情感处理的主要应用包括情感分析 情感识别 情感挖掘等 随着大数据 深度学习和自然语言处理等技术的发展 情感处理技术已经取得了显著的进展 然
  • AI大模型应用入门实战与进阶:如何训练自己的AI模型

    1 背景介绍 人工智能 Artificial Intelligence AI 是计算机科学的一个分支 旨在模拟人类智能的能力 包括学习 理解自然语言 识别图像和视频 进行决策等 随着数据量的增加和计算能力的提升 人工智能技术的发展得到了巨大
  • 心灵与大脑的沟通:如何让大脑更好地理解我们的情感

    1 背景介绍 心理学和人工智能之间的界限已经不断模糊化 尤其是在情感智能方面 情感智能是一种新兴的人工智能技术 旨在让计算机更好地理解和回应人类的情感 这篇文章将探讨如何让大脑更好地理解我们的情感 以及在这个过程中涉及的核心概念 算法原理
  • 人工智能与机器学习:未来的编程范式

    1 背景介绍 人工智能 Artificial Intelligence AI 和机器学习 Machine Learning ML 是现代计算机科学的重要领域之一 它们旨在让计算机能够自主地学习 理解和进化 以解决复杂的问题 随着数据量的增加
  • Linux,需要准确的程序计时。调度程序唤醒程序

    我有一个在 Linux 系统上运行的线程 我需要以尽可能准确的时间间隔执行它 例如 每毫秒执行一次 目前 这是通过创建一个计时器来完成的 timerfd create CLOCK MONOTONIC 0 然后在结构中传递所需的睡眠时间 ti
  • 2024年华数杯国际赛B题:光伏发电功率 思路模型代码解析

    2024年华数杯国际赛B题 光伏发电功率 Photovoltaic Power 一 问题描述 中国的电力构成包括传统能源发电 如煤 油和天然气 可再生能源发电 如水电 风能 太阳能和核能 以及其他形式的电力 这些发电模式在满足中国对电力的巨
  • 问CHAT很繁琐的问题会不会有答案呢?

    问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件 对极端低温事件研究较少 CHAT 回复 为这主要可能是由于以下几个原因 1 气候变化与全球变暖 当前 全球变暖和气候变化的问题备受关注 这导致科研者更加关注极端高温事件
  • 电商数据api拼多多接口获取商品实时数据价格比价api代码演示案例

    拼多多商品详情接口 接口接入入口 它的主要功能是允许卖家从自己的系统中快速获取商品详细信息 通过这个接口 卖家可以提取到商品的各类数据 包括但不限于商品标题 价格 优惠价 收藏数 下单人数 月销售量等 此外 还可以获取到商品的SKU图 详情
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • CorelDRAW2024官方中文版重磅发布更新

    35年专注于矢量设计始于1988年并不断推陈出新 致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长 在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
  • Linux 内核 - 我可以在不同的函数中锁定和解锁 Spinlock 吗?

    我是内核编程和锁编程的新手 在不同的函数中锁定和解锁自旋锁是否安全 我这样做是为了同步代码流 另外 在 schedule 中使用自旋锁 锁定和解锁 是否安全 让调度程序等待获取锁是否安全 提前致谢 代替spinlock 你可以使用semap
  • 使用 Schedulers 时,System.out.println 在 RxJava 中不打印任何内容

    我正在摆弄 RxJava 和调度程序 我用调度程序实现了一个非常简单的流 Observable just 1 2 3 doOnNext v gt Thread currentThread getName subscribeOn Schedu
  • Android进程调度

    我试图更好地理解 以便在创建 Android 应用程序 服务时确定潜在的互操作性问题对可靠性的影响 我想弄清楚进程优先级是如何确定的 服务和活动之间优先级的差异以及调度程序是否以不同方式对待它们的优先级 基本上 我试图深入了解某个活动或服务
  • javaquartz从计划的作业中获取所有详细信息

    我有一个包含多个作业的调度程序 我希望能够显示调度程序中的所有活动作业 我的意思是我想显示每个作业何时被触发 这是我的代码 sched start JobDetail job newJob Jobs class withIdentity j

随机推荐

  • LLVM简明安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

    官网下载地址 https releases llvm org 截止2020 9 13 最新版本为LLVM10 0 1 下载源码进行手动编译 一般情况下只需要下载LLVM source code Clang source code compi
  • PredictionIO

    安装PredictionIO 参考http predictionio apache org install install sourcecode wget http mirrors tuna tsinghua edu cn apache p
  • zookeeper session实现机制

    zookeeper session实现机制 TO DO
  • Windows环境下Visual Studio 配置Clang步骤

    一 下载安装所需要的工具 1 下载安装SVN 打开http subversion apache org packages html 下载TortoiseSVN 像我是下载了64位的 下载好之后安装就好 到这里 SVN是可以用了 如果在Win
  • 【CTFshow】Web1-Web10

    Web1 Web10 Web1 直接查看源代码 Web2 所以打不开控制台 无论按鼠标右键还是按f12 都看不了源代码 查看源代码 通过在url头部添加 view source Web3 什么都没有 抓包看看 Web4 robots协议 W
  • JAVA语法

    Java 语法是语言的基础 是编写编译器和计算机 理解 的程序的所有主要规则 命令 结构 每种编程语言都有其语法和人类语言 文章目录 前言 一 Java语法是什么 二 基础语法 1 注释 2 关键字 3 常量 4 数据类型 5 变量 6 标
  • 虚拟机安装遇到的一个问题

    我是r7000p用户 由于工作需要 安装了一个虚拟机 安装了VMware Workstation Pro 15 5 0 然后安装了Linux系统 安装成功之后 准备开启虚拟机 但是系统安装过程中出现电脑重启 多次均出现重启现象 到这个界面就
  • HTML详解连载(6)

    HTML详解连载 6 专栏链接 link http t csdn cn xF0H3 下面进行专栏介绍 开始喽 CSS特性 继承性 注意 层叠性 特点 优先级 规则 公式 注意 叠加计算 公式 每以及之间不存在进位 规则 Emmet写法分析
  • python开发效率怎样_python开发效率

    广告关闭 腾讯云11 11云上盛惠 精选热门产品助力上云 云服务器首年88元起 买的越多返的越多 最高返5000元 题主想要提高开发效率 下面这款人工智能工具 可以在不需要把ide玩的666的时候也能提高你自己开发软件的效率 机缘巧合最近开
  • 两个类是同一个类的判断标准

    两个类是同一个类的判断标准 1 完整的类名必须相同 包括包名 2 使用同一个类加载器加载 如果一个类是由用户自定义的加载器加载的 那么JVM会将这个类的类加载器的一个引用作为类型信息的一部分保存在方法区中 类的主动使用与被动使用 1日常的操
  • Nginx修复CORS漏洞方案(亲测可行)

    漏洞介绍 概述 CORS 跨域资源共享 Cross origin resource sharing 是H5提供的一种机制 WEB应用程序可以通过在HTTP增加字段来告诉浏览器 哪些不同来源的服务器是有权访问本站资源的 当不同域的请求发生时
  • 服务器的内核信息,服务器的内核怎么看

    服务器的内核怎么看 内容精选 换一换 业务接入DDoS高防后 经过高防转发的流量到服务端之后真实源IP将被隐藏 在业务应用开发中 通常需要获取客户端真实的IP地址 例如 投票系统为了防止刷票 需要通过获取客户端真实IP地址 限制每个客户端I
  • Docker小白到实战之Docker Compose在手,一键足矣

    前言 Docker可以将应用程序及环境很方便的以容器的形式启动 但当应用程序依赖的服务比较多 或是遇到一个大系统拆分的服务很多时 如果还一个一个的根据镜像启动容器 那就有点累人了 到这有很多小伙伴会说 弄个脚本就搞定啦 要的就是这个思路 D
  • 如何在 C# 中以编程方式将 IGS/IGES 文件转换为 PDF?

    计算机辅助设计应用程序使用 IGS 文件 因为它们包含设计信息 您可以将 IGS 文件转换为 PDF 格式的文档 以便在多个操作系统和环境中查看内容 使用 C 以编程方式将 IGS 或 IGES 文件转换为 PDF 使用高级选项将 IGES
  • 黑客零基础自学路线(超详细),学完即可进去“包吃包住”

    写在开头 此教程为纯技术分享 本文的目的决不是为那些怀有不良动机的人提供及技术支持 严禁利用本文所提到的漏洞和技术进行非法攻击 也不承担因为技术被滥用所产生的连带责任 网络绝非法外之地 开门见山 很多人上来就说想做黑客 但是连方向都没搞清楚
  • 【Linux】压缩和解压缩

    gzip gunzip压缩 只能压缩文件不能压缩目录 不保留原来的文件 gzip 文件 压缩文件 只能将文件压缩为 gz文件 gunzip 文件 gz 功能描述 解压缩文件命令 zip unzip压缩 zip zip twinkle zip
  • 取整和取余

    取整和取余 在数学的除法运算中 两个数相除是可以算到小数位的 但是 在c语言中两个整数相除其结果是一个整数 只有两数中至少有一个为实数的时候 他们相除的结果才是小数 因此 两个整数相除的结果就会涉及到取整问题 在c语言中 其取整方式为向0取
  • Gartner:“新基建”五大关键领域见解及建议

    关注ITValue 看企业级最新鲜 最具价值报道 图片来源 视觉中国 文章来源 Gartner 作者 Gartner公司副总裁及高管合伙人龚培元 Michael Kung 近日 中共中央政治局常务委员会召开会议 会议指出 要加大公共卫生服务
  • Java异常被抛出或被捕获之后,代码是否继续执行的问题 ...

    在写程序的时候 我们经常被教导 要对异常的信息进行处理 哪里该抛出异常 但是 更多的时候 我们只是模仿异常的抛出 却不知道为什么要这样抛异常 被catch了 被向上抛了 后面的代码是否执行了 接下来 我就简单的说一下异常抛出后的代码执行问题
  • 工作流任务调度系统:Apache DolphinScheduler

    官网 GitHub 目录 1 概述 1 1 背景 1 2 特点 2 系统架构 2 1 名词解释 2 2 架构 3 部署 3 1 后端部署 3 1 1 基础软件安装 3 1 2 创建部署用户 3 1 3 下载并解压 3 1 4 针对esche