【机器学习】Reinforcement Learning-强化学习学习笔记

2023-11-07

一、强化学习的定义

1.1 什么是强化学习？

首先，强化学习并不是某一种特定的算法，而是一类算法的统称。

解决序列决策问题的一类方法，通过寻求最优策略，获取最大回报。

强化学习就是智能体从环境到动作映射的学习，以使回报信号(激励信号)函数值最大。

引用下百度百科下强化学习的定义：强化学习（Reinforcement Learning, RL），又称增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习的常见模型是标准的。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动（passive RL）。

1.2 机器学习的几种方法

强化学习是和监督学习，非监督学习并列的第三种机器学习方法。

机器学习下的几种方法的对比：

监督学习：标签数据：需要，直接反馈，应用场景：预测输出。
无监督学习：标签数据：不需要，无反馈，应用场景：发掘隐藏结构。
强化学习：标签数据：不需要，延迟反馈，应用场景：决策过程。

在这里插入图片描述

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”，而是通过自己不停的尝试来学会某些技能。也就是说，强化学习是让计算机实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，最后找到规律，学会了达到目的的方法。智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

1.3 强化学习基本思路

算法执行个体（Agent）来做决策，即选择一个合适的动作（Action）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

深度学习

算法

人工智能

【机器学习】Reinforcement Learning-强化学习学习笔记的相关文章

毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
【卡尔曼滤波】具有梯度流的一类系统的扩散映射卡尔曼滤波器研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据文章
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
华为OD机试2024年最新题库（Java）

我是一名软件开发培训机构老师我的学生已经有上百人通过了华为OD机试学生们每次考完试会把题目拿出来一起交流分享重要 2024年1月 5月考的都是OD统一考试 C卷题库已经整理好了命中率95 以上这个专栏使用 Java 解法问
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
「优选算法刷题」：移动零

嗨这个假期罗根开始接触了算法在为今年的蓝桥杯做准备所以开个新专栏记录记录自己做算法题时的心得一题目给定一个数组 nums 编写一个函数将所有 0 移动到数组的末尾同时保持非零元素的相对顺序请注意必须在不复制数组的情况下
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
『力扣刷题本』:逆波兰表达式求值

大家好久不昂最近 1 个多月罗根一直在备考期末文章发的很少现在已经放寒假啦学习自然也不能拉下毕竟 4 月份就要去参加蓝桥杯了先给自己定个小目标日更 2 篇咳咳下面马上开始讲题一题目给你一个字符串数组 tokens 表
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
【算法】使用BFS算法（队列、哈希等）解决最短路径问题（C++）

文章目录 1 前言 1 1 什么是最短路问题 1 1 1 什么是权值 1 2 如何解决此类最短路径 1 3 BFS解最短路径前提 FloodFill 洪流问题 2 算法题

随机推荐

maven安装教程（超详细图解）

本篇超级详细案例图解教学 Maven安装教程图片点击可放大仔细看 Maven安装教程 1 前提 Maven需要Java环境所以首先需要安装JDK 本教程默认已安装JDK1 8 2 解压文件将maven文件夹复制到磁盘目录本教程以安装
JackSon

前后端分离开发中常用到的数据交互方式就是json 本文主要讲解对jackson对json的相关操作 jackson 基础篇 1 引入依赖
《Apache MINA 2.0 用户指南》第七章：事件处理器

最近准备将Apache MINA 2 0 用户指南英文文档翻译给大家但是我偶然一次百度发现 Defonds 这位大牛已经翻译大部分文档原文链接 http mina apache org mina project userguide c
[webpack问题]TypeError: __webpack_require__(...).context is not a function

require context directory useSubdirectories regExp directory 表示检索的目录 useSubdirectories 表示是否检索子文件夹 regExp 匹配文件的正则表达式一般是文
BeanCreationException异常，注入Bean异常

org springframework beans factory BeanCreationException Error creating bean with name XXX 注入bean异常出现这个异常就是找不到对应的JavaBea
mac改成类似微软键盘偏好设置

以前我做过笔记但是好像印象还不是很深刻因为我自己还是忘记了我又写了一篇首先是蛋疼的切换输入法问题中文输入法和英文输入法的问题真不习惯切换输入法改正方法进入系统偏好设置键盘快捷键输入法选择上一个输入法勾选发现右边空
Java类和对象（重点详解）

类和对象类和对象的关系类的介绍类变量静态变量 public private 一些建议和小结写在最后的话这段时间博主学习了一些Java中类和对象的知识今天我们就来聊聊Java中的类和对象类和对象的关系类其实就是一个模板比如
oracle重复数据保留需要的一条数据

由于功能开发进度的问题人员录入的时候仅能够多次录入不能够录入之后直接以该数据未蓝本引入导致多部门的时候必须多次创建冗余的数据且由于数据录入的不规范录入了许多相同的数据特别是同单位同部门的数据故需要处理此类数据因此需要对此类重复
Unity --- 文本输入框的使用

文本输入框有两个版本一个是旧版的文本输入框一个是新版的输入字段这里选择旧版其实旧版和新版的唯一区别就是text组件有些不同其它的没啥不同上面这两张图就是文本输入框中最重要的 input field 输入区域组件的参数了上面这
leetcode报错：member access within null pointer of type 'struct ListNode'

背景在编写判断单链表是否有环时出现这错误错误出现原因错误出现原因 color Red text 38169 35823 20986 29616 21407 22240 因为试图使用空指针解决方法解决方法 color Red te
音频模块的介绍

一术语总结 1 HIFI 级 HIFI 一词通常指高保真音频 High Fidelity Audio 是指尽可能保持音频信号的原始质量让听众感受到最真实的音乐表现因此 HIFI级通常指具有高保真音频性能的产品或设备例如高保真耳机
MAC使用Visual Studio Code开发C/C++

MAC使用Visual Studio Code开发C C 一前置概念理解二环境准备三编译运行四补充一前置概念理解 VS code只是一个纯文本编辑器 editor 不是IDE 集成开发环境不含编译器 compile
html天气插件iframe,分享常用7款天气预报代码iframe嵌入网页方式

如果在网站上加入天气预报功能你找不到更好的天气预报代码可以看下本站和大家分享的7款天气预报代码iframe嵌入网页方式天气预报代码1 src http appnews qq com cgi bin news qq search cit
python：pydub模块

一安装 1 安装模块 pip install pydub 2 安装插件云盘中下载文件ffmpeg 打开电脑上的控制面板系统高级系统设置环境变量然后双击path 看到如下的界面然后点新建会出现一个新建的地址栏你需要在这个新建地
备忘：maven 错误信息： Plugin execution not covered by lifecycle configuration

在一个pom文件中由于需要设置了一下几个默认goal的版本号如下
算法题：回文数

力扣思路用栈 public static boolean isPalindrome int x if x lt 0 return false if x 0 return true 怎么取每位数字 String s String valu
2023-DataWorks数仓开发手册收藏版

DataWorks开发规范 1 数仓基本概念 1 4 1 ods数据源层表命名规范 1 4 2 dim维表层表命名规范 1 4 3 dwd数据明细层表命名规范 1 4 3 dws数据明细层表命名规范 1 4 4 ads数据应用层表命名规范
Docker从入门到精通

目录一初识 Docker 1 Docker概念 2 安装Docker CentOS系统 3 Docker的架构 4 阿里云镜像加速 5 Docker容器虚拟化与传统虚拟机比较二 Docker 服务相关命令 1 启动docker 服
普通树转二叉树：左儿子右兄弟表示法

这两天在吃力地学DP的优化被虐地不行不行的搞个小插曲左儿子右兄弟顾名思义是一棵转换后的树它是一棵二叉树一个节点的左子树表示的是原树中这个节点的子节点一个节点的右子树表示的是这个节点在原树中的兄弟父节点相同的点这么表示有什
【机器学习】Reinforcement Learning-强化学习学习笔记

一强化学习的定义 1 1 什么是强化学习首先强化学习并不是某一种特定的算法而是一类算法的统称解决序列决策问题的一类方法通过寻求最优策略获取最大回报强化学习就是智能体从环境到动作映射的学习以使回报信号激励信号函数值最大

热门标签