DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)

2023-11-17

1 文章简介

本文原文可查阅文献:

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

 本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。

2 状态设置

        主要考虑任务状态和AGV状态,如下:

(1)任务数量N_{t},表示当前需要运输的任务总数。

(2)当前任务的平均剩余时间:

(3)当前任务的平均运行距离

(4)备选AGV的工作状态,用二进制数表示,空闲为0,不空闲为1.

(5)AGV的行驶速度。

3 奖励函数

        设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标,引入时间成本和延迟成本的概念如下:

C_{ikd}:表示AGV i操作任务k的延迟成本;C_{id}:AGV i 的总延迟成本;C_{d}:整个调度的总延迟成本

t_{ik}:任务k的运输时间;t_{kr}:AGV i的总延迟时间

 C_{ikT}:AGV i执行任务k的时间成本;C_{T}:总调度时间成本;T:makespan

随着上述成本的降低,调度绩效将得到改善。因此,根据延迟成本和时间成本定义奖励函数如下:

 R_{t}:用于评估单个任务的行动的当前奖励;

R_{f}:用于评估调度的整体性能的最终奖励;

c_{ad}/c_{aT}:单个任务的平均延迟成本和平均时间成本

C_{ad}/C_{aT}:整个调度的平均延迟成本和平均时间成本

4 动作

 5 体系结构

算法框架:

 

6 效果 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置) 的相关文章

  • 多智能体强化学习基础知识(入门级)

    参考资料 王树森 深度强化学习 https github com wangshusen DRL
  • SAC(Soft Actor Critic)学习记录

    SAC Soft Actor Critic 学习记录 基本介绍 SAC Soft Actor Critic 算法在近年来受到了许多的关注 得到了不少深度强化学习研究者的好评 这篇文章主要包含的内容有SAC算法的理论分析和核心代码实现 与许多
  • 利用强化学习进行股票操作实战(三)

    与上一篇文章相同之处 对于交易策略 与上一篇文章相同 当发出买入指令时 一次性全部买入 当发出卖出指令时 一次性全部卖出 还没有添加加减仓操作 模型仍然用的是DQN模型 新增内容 在之前的基础上加入了交易手续费 印花税等 在强化学习这个领域
  • 基于策略的强化学习(一)

    基于策略的强化学习 基于策略的强化学习解决的问题 策略目标函数 基于策略的强化学习解决的问题 解决行为空间连续 观测受限 随机策略的强化学习等问题 策略目标函数 在基于策略的强化学习中 策略 pi 可以被描述为一个包含参数 theta
  • 强化学习基础

    强化学习 强化学习概念 强化学习 RL 就是智能体Agent与环境交互从而进行学习的一种机器学习方法 Agent执行一个动作后 会从环境中获得反馈 这个反馈就是环境对这个动作做出的评价 这个可以理解为当你拿100分时 你妈妈会给你一顿大餐的
  • 强化学习笔记:连续控制 & 确定策略梯度DPG

    1 离散控制与连续控制 之前的无论是DQN Q learning A2C REINFORCEMENT SARSA什么的 都是针对离散动作空间 不能直接解决连续控制问题 考虑这样一个问题 我们需要控制一只机械手臂 完成某些任务 获取奖励 机械
  • 马尔可夫过程

    马尔可夫过程的定义 平稳过程的平稳性保证了未来可以通过过去来预知 而马尔科夫是这样的一类过程 即未来只与现在有关 与过去无关 就是你的过去是什么样子不重要 未来只与自己当下的努力有关 我们只需要知道当前的信息就够了 举一个实际例子比如说卖电
  • 强化学习笔记-13 Policy Gradient Methods

    强化学习算法主要在于学习最优的决策 到目前为止 我们所讨论的决策选择都是通过价值预估函数来间接选择的 本节讨论的是通过一个参数化决策模型来直接根据状态选择动作 而不是根据价值预估函数来间接选择 我们可以定义如下Policy Gradient
  • 利用强化学习进行股票操作实战(四)

    本次实战代码仍是在之前基础上进行了一些修改 之前只在一支股票上进行训练 这次我将模型放在多支股票上训练 并在多支股票上进行了测试 对于多支股票的训练策略 没有参考过别人的训练方案 做这个的比较少 我按自己的理解去训练 每一轮训练 都将每支股
  • 强化学习算法 DDPG 解决 CartPole 问题,代码逐条详解

    本文内容源自百度强化学习 7 日入门课程学习整理 感谢百度 PARL 团队李科浇老师的课程讲解 使用DDPG解决连续控制版本的CartPole问题 给小车一个力 连续量 使得车上的摆杆倒立起来 文章目录 一 安装依赖 二 导入依赖 三 设置
  • 强化学习之Grid World的时序差分算法解析【MiniWorld】SYSU_2023SpringRL

    强化学习之Grid World的Monte Carlo算法解析 MiniWorld SYSU 2023SpringRL 题目以及思路 代码 运行结果 算法解析 代码算法流程 题目以及思路 环境在这篇博客强化学习原理及应用作业之动态规划算法
  • tensorflow4:创建一个简单的强化学习游戏

    Deep Q Network是DeepMind最早 2013年 提出来的 是深度强化学习方法 最开始AI什么也不会 通过给它提供游戏界面像素和分数 慢慢把它训练成游戏高手 这里首先给出一个基本的游戏例子 然后再给出强化学习方法 1 基本游戏
  • 莫烦强化学习视频笔记:第五节 5.2 Policy Gradients 算法更新和思维决策

    目录 1 要点 2 算法流程 3 算法代码形式 3 1 算法更新 3 2 思维决策 3 2 1 初始化 3 2 2 建立 Policy 神经网络 3 2 3 选行为 3 2 4 存储回合 3 2 5 学习 1 要点 Policy gradi
  • CARLA平台+Q-learning的尝试(gym-carla)

    接触强化学习大概有半年了 也了解了一些算法 一些简单的算法在gym框架也实现了 那么结合仿真平台Carla该怎么用呢 由于比较熟悉gym框架 就偷个懒先从这个开始写代码 项目地址 https github com cjy1992 gym c
  • 如何在PyCharm中对自己的pySC2 Agent代码进行Debug

    PySC2环境在Win10系统上的部署与安装 请参考 https blog csdn net qq 38962621 article details 112798659 spm 1001 2014 3001 5501 PySC2自定义Age
  • 【总结】为什么对累积奖励减去baseline项能起到减小方差的作用?

    深度强化学习实验室 论坛 http deeprlhub com 来源 https zhuanlan zhihu com p 98506549 作者 风清云 很多论文的工作都专注于减少policy gradient的方差 以得到更加优质且稳定
  • 论文笔记:STMARL: A Spatio-Temporal Multi-AgentReinforcement Learning Approach for Cooperative Traffic

    0 abstract 智能交通灯控制系统的开发对于智能交通管理至关重要 虽然已经做出了一些努力以孤立的形式来优化单个红绿灯的使用 但相关研究在很大程度上忽略了多路口红绿灯的使用受到空间影响的事实 以及历史交通状态的时间依赖性 为此 在本文中
  • 强化学习实践三 :编写通用的格子世界环境类

    gym里内置了许多好玩经典的环境用于训练一个更加智能的个体 不过这些环境类绝大多数不能用来实践前五讲的视频内容 主要是由于这些环境类的观测空间的某个维度是连续变量而不是离散变量 这是前五讲内容还未涉及到的知识 为了配合解释David Sil
  • 2022年2月份谷哥学术资源分享下载列表 20/20

    资源名称 下载地址 关键词 项目反应理论与经典测验理论之比较 pdf https download csdn net download tysonchiu 79246540 技术文档 响应面方法在优化微生物培养基中的应用 pdf https
  • 强化学习实验中的绘图技巧-使用seaborn绘制paper中的图片

    强化学习实验中的绘图技巧 使用seaborn绘制paper中的图片 使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas 不同的源数据对应的其他参数也略有不同 1 ndarray 先看一个小例子 def getdat

随机推荐

  • 【阅读随笔】Modularized Control Synthesis for Complex Signal Temporal Logic Specifications

    又是一篇有关STL任务分解的文章 1 Z Zhang and S Haesaert Modularized Control Synthesis for Complex Signal Temporal Logic Specifications
  • 防御第三天

    1 总结当堂NAT与双机热备原理 形成思维导图 2 完成课堂NAT与双机热备实验 fw1
  • PIO操作Excel,通过文件流判断Excel的版本

    import com fasterxml jackson databind exc InvalidFormatException import org apache poi ss usermodel Workbook import org
  • 送书

    又到了周三了 说实话 本来这期想鸽的 上海这边的疫情太严重了 前几期上海这边中奖的粉丝都没办法收货 只能等解封后再安排了 在这里和大家道个歉 希望大家谅解 最后希望在上海的小伙伴们早日渡过难关 像这种一把青菜50块的日子什么时候才是个头啊
  • 推荐七种开源免费的C/C++网络库

    1 ACE 庞大 复杂 适合大型项目 开源 免费 不依赖第三方库 支持跨平台 2 Asio Asio基于Boost开发的异步IO库 封装了Socket 简化基于socket程序的开发 开源 免费 支持跨平台 3 POCO POCO C Li
  • java向上转型思考

    https www cnblogs com bangaj p 5813738 html 下面是对向上转型思考 作用 简化开发 体现类的多态性 保证代码简洁 实现前提 因为java是动态绑定特点 在编译时会编译器会自动找寻到 是子类方法还是父
  • COUNT(1) 和 COUNT(*) COUNT(字段) 傻傻分不清

    写 SQL 的时候突然想到一个问题 COUNT 1 和 COUNT 有啥区别 COUNT 字段 呢 在数据库的增删改查操作中 使用最频繁的就是查询操作 而在所有查询操作中 统计数量操作更是经常被用到 关于数据库中行数统计 无论是MySQL还
  • Pandas学习笔记

    1 Pandas作用 一个提供快速 可扩展和展现数据结构的Python库 目标是成为使用Python处理时间和实际数据分析的模块 有两种数据结构 Series和DataFrame 1 Series是一种类似于NumPy数组的对象 由一组数据
  • Ubuntu16.04下安装sogou输入法

    1 首先进入搜狗输入官方网站 找到对应的for Ubuntu进行下载 链接如下 https pinyin sogou com 进入进行下载 下载完成的文件后缀名为 deb文件 2 开始安装
  • 软件测试用例常用七大方法

    第一 测试用例格式包括十大特点 用例编号 测试项 测试标题 用例属性 重要级别 高中低 预置条件 测试输入 操作步骤 预期结果 实际结果 第二 等价类 1 等价类定义 2 等价类划分 3 等价类划分规则 4 进行等价类用例设计 5 案例加以
  • css——优先级(权重)

    阅读本文需要一定的css基础如有需要可以先了解一下 css选择器 首先来说一下我们的核心CSS 层叠样式表 Cascading Style Sheets 缩写为 CSS 是一种 样式表 语言 用来描述 HTML 或 XML 包括如 SVG
  • Python爬虫从入门到精通:(23)Selenium扩展知识小技巧_Python涛哥

    如何让selenium规避检测 有的网站会检测请求是否为selenium发起 如果是的话则让该次请求失败 规避检测的方法 selenium接管chrome浏览器 实现步骤 必须将你电脑中安装的谷歌浏览器的驱动所在的目录找到 且将目录添加到环
  • 【后端】Java根据日期获取哪年的第几季度

    记录自己日常写的通用方法 根据日期 Date 获取哪年的第几季度 如下面代码 public String GetQuarterByDate String date throws ParseException if date equals d
  • jQuery ajax重复调用问题

    前段时间项目中遇到有的页面调用一次ajax会发送两次请求的问题 发现注释掉构造jQuery Dialog代码后正常 最终找出的原因是构造jQuery Dialog的div中有多余且未闭合的标签所致
  • 彩虹表(rainbow table)

    1 彩虹表引入 在看微众银行开源的WeIdentity规范中的可验证凭证Credential数据结构时 看到有关于防止彩虹表方式反向破解哈希的问题 如下图所示 在执行选择性披露用户的信息时 是将claim中的其他字段内容进行hash 只披露
  • vue.js -- 条件渲染

    目录 条件渲染 v if的用法 v if v else的用法 v if v else if v else的用法 v show的用法 v if 和 v show 的区别 条件渲染 v if的用法 代码演示
  • 蓝桥杯专题之思维篇

    题目列表 2014年 蚂蚁感冒 2016年 交换瓶子 2018年 乘积最大 2019年 后缀表达式 2022年第一次模拟赛 停车位 1 蚂蚁感冒 题目描述 长100厘米的细长直杆子上有n只蚂蚁 它们的头有的朝左 有的朝右 每只蚂蚁都只能沿着
  • leaflet-editable

    请参阅演示 UI 下面是更多示例 这也是uMap背后的绘图引擎 安装 您需要 Leaflet gt 1 0 0 然后包含src Leaflet Editable js 路径拖动 如果你想要路径拖动 你还需要包含Path Drag js 快速
  • vscode 预览图片 插件_真的动手写的VSCode的插件(图片浏览)之1

    由于本职工作中经常做图像处理 于时大量的图片浏览是不可避免的 怎么样不离开最近经常使用的VSCode 同时去看大量的图像对我来讲就是个不错的需求 尤其是某个目录下的文件 先谈基本的需求吧 显示一个目标下的所有图像 最好图像可以按列表 块显示
  • DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)

    1 文章简介 本文原文可查阅文献 Deep reinforcement learning based AGVs real time scheduling with mixed rule for flexible shop floor in