DQN学习使用混合规则的柔性车间AGV实时调度（关注点：状态、奖励函数的设置）

2023-11-17

1 文章简介

本文原文可查阅文献：

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

本文针对对象为柔性车间，提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法，以最小化完工时间和延迟率为目标。

2 状态设置

主要考虑任务状态和AGV状态，如下：

（1）任务数量 $N_{t}$ ，表示当前需要运输的任务总数。

（2）当前任务的平均剩余时间：

（3）当前任务的平均运行距离

（4）备选AGV的工作状态，用二进制数表示，空闲为0，不空闲为1.

（5）AGV的行驶速度。

3 奖励函数

设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标，引入时间成本和延迟成本的概念如下:

$C_{ikd}$ :表示AGV i操作任务k的延迟成本； $C_{id}$ :AGV i 的总延迟成本; $C_{d}$ :整个调度的总延迟成本

$t_{ik}$ :任务k的运输时间； $t_{kr}$ :AGV i的总延迟时间

$C_{ikT}$ :AGV i执行任务k的时间成本； $C_{T}$ :总调度时间成本；T：makespan

随着上述成本的降低，调度绩效将得到改善。因此，根据延迟成本和时间成本定义奖励函数如下:

$R_{t}$ :用于评估单个任务的行动的当前奖励；

$R_{f}$ :用于评估调度的整体性能的最终奖励;

$c_{ad}/c_{aT}$ :单个任务的平均延迟成本和平均时间成本

$C_{ad}$ / $C_{aT}$ ：整个调度的平均延迟成本和平均时间成本

4 动作

5 体系结构

算法框架：

6 效果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习

AGV调度优化

论文阅读与实现

强化学习

车间调度

DQN学习使用混合规则的柔性车间AGV实时调度（关注点：状态、奖励函数的设置）的相关文章

多智能体强化学习基础知识（入门级）

参考资料王树森深度强化学习 https github com wangshusen DRL
SAC(Soft Actor Critic)学习记录

SAC Soft Actor Critic 学习记录基本介绍 SAC Soft Actor Critic 算法在近年来受到了许多的关注得到了不少深度强化学习研究者的好评这篇文章主要包含的内容有SAC算法的理论分析和核心代码实现与许多
利用强化学习进行股票操作实战（三）

与上一篇文章相同之处对于交易策略与上一篇文章相同当发出买入指令时一次性全部买入当发出卖出指令时一次性全部卖出还没有添加加减仓操作模型仍然用的是DQN模型新增内容在之前的基础上加入了交易手续费印花税等在强化学习这个领域
基于策略的强化学习(一)

基于策略的强化学习基于策略的强化学习解决的问题策略目标函数基于策略的强化学习解决的问题解决行为空间连续观测受限随机策略的强化学习等问题策略目标函数在基于策略的强化学习中策略 pi 可以被描述为一个包含参数 theta
强化学习基础

强化学习强化学习概念强化学习 RL 就是智能体Agent与环境交互从而进行学习的一种机器学习方法 Agent执行一个动作后会从环境中获得反馈这个反馈就是环境对这个动作做出的评价这个可以理解为当你拿100分时你妈妈会给你一顿大餐的
强化学习笔记：连续控制 & 确定策略梯度DPG

1 离散控制与连续控制之前的无论是DQN Q learning A2C REINFORCEMENT SARSA什么的都是针对离散动作空间不能直接解决连续控制问题考虑这样一个问题我们需要控制一只机械手臂完成某些任务获取奖励机械
马尔可夫过程

马尔可夫过程的定义平稳过程的平稳性保证了未来可以通过过去来预知而马尔科夫是这样的一类过程即未来只与现在有关与过去无关就是你的过去是什么样子不重要未来只与自己当下的努力有关我们只需要知道当前的信息就够了举一个实际例子比如说卖电
强化学习笔记-13 Policy Gradient Methods

强化学习算法主要在于学习最优的决策到目前为止我们所讨论的决策选择都是通过价值预估函数来间接选择的本节讨论的是通过一个参数化决策模型来直接根据状态选择动作而不是根据价值预估函数来间接选择我们可以定义如下Policy Gradient
利用强化学习进行股票操作实战（四）

本次实战代码仍是在之前基础上进行了一些修改之前只在一支股票上进行训练这次我将模型放在多支股票上训练并在多支股票上进行了测试对于多支股票的训练策略没有参考过别人的训练方案做这个的比较少我按自己的理解去训练每一轮训练都将每支股
强化学习算法 DDPG 解决 CartPole 问题，代码逐条详解

本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解使用DDPG解决连续控制版本的CartPole问题给小车一个力连续量使得车上的摆杆倒立起来文章目录一安装依赖二导入依赖三设置
强化学习之Grid World的时序差分算法解析【MiniWorld】SYSU_2023SpringRL

强化学习之Grid World的Monte Carlo算法解析 MiniWorld SYSU 2023SpringRL 题目以及思路代码运行结果算法解析代码算法流程题目以及思路环境在这篇博客强化学习原理及应用作业之动态规划算法
tensorflow4:创建一个简单的强化学习游戏

Deep Q Network是DeepMind最早 2013年提出来的是深度强化学习方法最开始AI什么也不会通过给它提供游戏界面像素和分数慢慢把它训练成游戏高手这里首先给出一个基本的游戏例子然后再给出强化学习方法 1 基本游戏
莫烦强化学习视频笔记：第五节 5.2 Policy Gradients 算法更新和思维决策

目录 1 要点 2 算法流程 3 算法代码形式 3 1 算法更新 3 2 思维决策 3 2 1 初始化 3 2 2 建立 Policy 神经网络 3 2 3 选行为 3 2 4 存储回合 3 2 5 学习 1 要点 Policy gradi
CARLA平台+Q-learning的尝试（gym-carla）

接触强化学习大概有半年了也了解了一些算法一些简单的算法在gym框架也实现了那么结合仿真平台Carla该怎么用呢由于比较熟悉gym框架就偷个懒先从这个开始写代码项目地址 https github com cjy1992 gym c
如何在PyCharm中对自己的pySC2 Agent代码进行Debug

PySC2环境在Win10系统上的部署与安装请参考 https blog csdn net qq 38962621 article details 112798659 spm 1001 2014 3001 5501 PySC2自定义Age
【总结】为什么对累积奖励减去baseline项能起到减小方差的作用？

深度强化学习实验室论坛 http deeprlhub com 来源 https zhuanlan zhihu com p 98506549 作者风清云很多论文的工作都专注于减少policy gradient的方差以得到更加优质且稳定
论文笔记：STMARL: A Spatio-Temporal Multi-AgentReinforcement Learning Approach for Cooperative Traffic

0 abstract 智能交通灯控制系统的开发对于智能交通管理至关重要虽然已经做出了一些努力以孤立的形式来优化单个红绿灯的使用但相关研究在很大程度上忽略了多路口红绿灯的使用受到空间影响的事实以及历史交通状态的时间依赖性为此在本文中
强化学习实践三：编写通用的格子世界环境类

gym里内置了许多好玩经典的环境用于训练一个更加智能的个体不过这些环境类绝大多数不能用来实践前五讲的视频内容主要是由于这些环境类的观测空间的某个维度是连续变量而不是离散变量这是前五讲内容还未涉及到的知识为了配合解释David Sil
2022年2月份谷哥学术资源分享下载列表 20/20

资源名称下载地址关键词项目反应理论与经典测验理论之比较 pdf https download csdn net download tysonchiu 79246540 技术文档响应面方法在优化微生物培养基中的应用 pdf https
强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片

强化学习实验中的绘图技巧使用seaborn绘制paper中的图片使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas 不同的源数据对应的其他参数也略有不同 1 ndarray 先看一个小例子 def getdat

随机推荐

【阅读随笔】Modularized Control Synthesis for Complex Signal Temporal Logic Specifications

又是一篇有关STL任务分解的文章 1 Z Zhang and S Haesaert Modularized Control Synthesis for Complex Signal Temporal Logic Specifications
防御第三天

1 总结当堂NAT与双机热备原理形成思维导图 2 完成课堂NAT与双机热备实验 fw1
PIO操作Excel，通过文件流判断Excel的版本

import com fasterxml jackson databind exc InvalidFormatException import org apache poi ss usermodel Workbook import org
送书

又到了周三了说实话本来这期想鸽的上海这边的疫情太严重了前几期上海这边中奖的粉丝都没办法收货只能等解封后再安排了在这里和大家道个歉希望大家谅解最后希望在上海的小伙伴们早日渡过难关像这种一把青菜50块的日子什么时候才是个头啊
推荐七种开源免费的C/C++网络库

1 ACE 庞大复杂适合大型项目开源免费不依赖第三方库支持跨平台 2 Asio Asio基于Boost开发的异步IO库封装了Socket 简化基于socket程序的开发开源免费支持跨平台 3 POCO POCO C Li
java向上转型思考

https www cnblogs com bangaj p 5813738 html 下面是对向上转型思考作用简化开发体现类的多态性保证代码简洁实现前提因为java是动态绑定特点在编译时会编译器会自动找寻到是子类方法还是父
COUNT(1) 和 COUNT(*) COUNT(字段) 傻傻分不清

写 SQL 的时候突然想到一个问题 COUNT 1 和 COUNT 有啥区别 COUNT 字段呢在数据库的增删改查操作中使用最频繁的就是查询操作而在所有查询操作中统计数量操作更是经常被用到关于数据库中行数统计无论是MySQL还
Pandas学习笔记

1 Pandas作用一个提供快速可扩展和展现数据结构的Python库目标是成为使用Python处理时间和实际数据分析的模块有两种数据结构 Series和DataFrame 1 Series是一种类似于NumPy数组的对象由一组数据
Ubuntu16.04下安装sogou输入法

1 首先进入搜狗输入官方网站找到对应的for Ubuntu进行下载链接如下 https pinyin sogou com 进入进行下载下载完成的文件后缀名为 deb文件 2 开始安装
软件测试用例常用七大方法

第一测试用例格式包括十大特点用例编号测试项测试标题用例属性重要级别高中低预置条件测试输入操作步骤预期结果实际结果第二等价类 1 等价类定义 2 等价类划分 3 等价类划分规则 4 进行等价类用例设计 5 案例加以
css——优先级（权重）

阅读本文需要一定的css基础如有需要可以先了解一下 css选择器首先来说一下我们的核心CSS 层叠样式表 Cascading Style Sheets 缩写为 CSS 是一种样式表语言用来描述 HTML 或 XML 包括如 SVG
Python爬虫从入门到精通:（23）Selenium扩展知识小技巧_Python涛哥

如何让selenium规避检测有的网站会检测请求是否为selenium发起如果是的话则让该次请求失败规避检测的方法 selenium接管chrome浏览器实现步骤必须将你电脑中安装的谷歌浏览器的驱动所在的目录找到且将目录添加到环
【后端】Java根据日期获取哪年的第几季度

记录自己日常写的通用方法根据日期 Date 获取哪年的第几季度如下面代码 public String GetQuarterByDate String date throws ParseException if date equals d
jQuery ajax重复调用问题

前段时间项目中遇到有的页面调用一次ajax会发送两次请求的问题发现注释掉构造jQuery Dialog代码后正常最终找出的原因是构造jQuery Dialog的div中有多余且未闭合的标签所致
彩虹表(rainbow table)

1 彩虹表引入在看微众银行开源的WeIdentity规范中的可验证凭证Credential数据结构时看到有关于防止彩虹表方式反向破解哈希的问题如下图所示在执行选择性披露用户的信息时是将claim中的其他字段内容进行hash 只披露
vue.js -- 条件渲染

目录条件渲染 v if的用法 v if v else的用法 v if v else if v else的用法 v show的用法 v if 和 v show 的区别条件渲染 v if的用法代码演示
蓝桥杯专题之思维篇

题目列表 2014年蚂蚁感冒 2016年交换瓶子 2018年乘积最大 2019年后缀表达式 2022年第一次模拟赛停车位 1 蚂蚁感冒题目描述长100厘米的细长直杆子上有n只蚂蚁它们的头有的朝左有的朝右每只蚂蚁都只能沿着
leaflet-editable

请参阅演示 UI 下面是更多示例这也是uMap背后的绘图引擎安装您需要 Leaflet gt 1 0 0 然后包含src Leaflet Editable js 路径拖动如果你想要路径拖动你还需要包含Path Drag js 快速
vscode 预览图片插件_真的动手写的VSCode的插件(图片浏览)之1

由于本职工作中经常做图像处理于时大量的图片浏览是不可避免的怎么样不离开最近经常使用的VSCode 同时去看大量的图像对我来讲就是个不错的需求尤其是某个目录下的文件先谈基本的需求吧显示一个目标下的所有图像最好图像可以按列表块显示
DQN学习使用混合规则的柔性车间AGV实时调度（关注点：状态、奖励函数的设置）

1 文章简介本文原文可查阅文献 Deep reinforcement learning based AGVs real time scheduling with mixed rule for flexible shop floor in

热门标签