【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

2023-05-16

深度强化学习实验室

官网：http://www.neurondance.com/

论坛：http://deeprl.neurondance.com/

编辑：DeepRL

《强化学习与控制》是一门由清华大学智能驾驶课题组李升波教授亲自讲授的强化学习课程，该课程总共包含11讲，以理论基础与算法设计融合的方式介绍了RL的框架体系，从优化角度梳理了直接法与间接法，带模型与免模型等类别，并对典型算法原理和特性进行了分析和总结，是一门兼顾基础入门、进阶提升的强化学习课程。

一、关于课题组

智能驾驶课题组(iDLab, Intelligent Driving Lab)

面向下一代机器学习和自动控制的交叉理论探索，聚焦智能网联汽车和驾驶辅助系统的核心技术研发，进一步提升汽车的智能性、安全性和节能性。

http://www.idlab-tsinghua.com/thulab/labweb/index.html

二、关于主讲老师：李升波教授

李升波，清华大学长聘教授，博导，车辆学院副院长。留学于斯坦福大学，密歇根大学和加州伯克利大学。从事自动驾驶、智能汽车、强化学习、最优控制等研究。发表论文110余篇，引用>8500次，H因子45。入选IEEE高关注度及封面论文3篇，ESI高引10篇（学科前1%），学术会议最佳论文奖8次。获中国汽车工业科技进步特等奖、国家科技进步二等奖、国家技术发明二等奖等。入选国家高层次科技创新领军人才、交通运输行业中青年科技创新领军人才、中国汽车行业优秀青年科技人才奖、首届北京市基金委杰青、清华大学教师学术新人奖等。担任AI国际评测MLPerf自动驾驶咨询委员会委员、IEEE智能交通系统学会的全球理事会委员、IEEE Trans on ITS副主编等。

三、关于《强化学习与控制》课程

目前，人工智能的快速崛起正重塑人类社会的各个领域，有望引导工业文明进入新一轮革命浪潮。以道路交通为例，汽车的智能化变革促使整个行业发生了翻天覆地的变化，包括驾驶辅助、自动驾驶、云控协同等一系列新技术如雨后春笋般涌现，它们在提升地面车辆行驶性能的同时，也为解决交通事故、排放污染、城市拥堵等问题提供了一条可行的途径。

以模仿人类大脑学习机制为原理的强化学习（RL，Reinforcement Learning）正迅速进入人们的视野，它为大规模复杂系统的学习及动态系统的高实时在线控制提供了一套极具前景的解决方案。一个引人注目的成功案例是以Alpha Go为代表的围棋智能：它利用深度强化学习算法实现围棋智能的自我进化，自我超越，打败人类最好的专业棋手。尽管强化学习具有优异的潜在优势，但是该方法的工程应用尚属于起步阶段。

《强化学习与控制》这一门课程包括11节。

第1讲介绍RL概况，包括发展历史、知名学者、典型应用以及主要挑战等。

第2讲介绍RL的基础知识，包括定义概念、自洽条件、最优性原理问题架构等。

第3讲介绍免模型学习的蒙特卡洛法，包括Monte Carlo估计，On-policy/off-policy，重要性采样等。

第4讲介绍免模型学习的时序差分法，包括它衍生的Sarsa，Q-learning，Expected Sarsa等算法。

第5讲介绍带模型学习的动态规划法，包括策略迭代、值迭代、收敛性原理等。

第6讲介绍间接型RL的函数近似方法，包括常用近似函数，值函数近似，策略函数近似以及所衍生的Actor-critic架构等。

第7讲介绍直接型RL的策略梯度法，包括各类Policy Gradient, 以及如何从优化的观点看待RL等。

第8讲介绍深度强化学习，即以神经网络为载体的RL，包括深度化典型挑战、经验性处理技巧等。

第9讲介绍带模型的强化学习，即近似动态规划，包括离散时间系统的ADP，ADP与MPC的关联分析等。

第10讲介绍有限时域的近似动态规划，同时介绍了状态约束的处理手段以及它与可行性之间的关系

第11讲介绍RL的各类拾遗，包括POMDP、鲁棒性、多智能体、元学习、逆强化学习以及训练平台等。

---------------------------------------------------

pdf合集下载地址

https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg

提取码: ycqv

或直接登录论坛(阅读原文)下载

http://deeprl.neurondance.com/d/287

---------------------------------------------------

四、部分PPT展示

---------------------------------------------------

所有pdf下载地址

https://pan.baidu.com/s/1Z5pWdckre1pQYmgB5IaXHg

提取码: ycqv

或直接登录论坛(阅读原文)下载

http://deeprl.neurondance.com/

---------------------------------------------------

完

总结1：周志华 || AI领域如何做研究-写高水平论文

总结2：全网首发最全深度强化学习资料(永更)

总结3: 《强化学习导论》代码/习题答案大全

总结4：30+个必知的《人工智能》会议清单

总结5：2019年-57篇深度强化学习文章汇总

总结6: 万字总结 || 强化学习之路

总结7：万字总结 || 多智能体强化学习(MARL)大总结

总结8：深度强化学习理论、模型及编码调参技巧

完

第106篇：奖励机制不合理：内卷，如何解决？

第105篇：FinRL: 一个量化金融自动交易RL库

第104篇：RPG: 通过奖励发现多智能体多样性策略

第103篇：解决MAPPO（Multi-Agent PPO）技巧

第102篇：82篇AAAI2021强化学习论文接收列表

第101篇：OpenAI科学家提出全新强化学习算法

第100篇：Alchemy: 元强化学习(meta-RL)基准环境

第99篇：NeoRL:接近真实世界的离线强化学习基准

第98篇：全面总结(值函数与优势函数)的估计方法

第97篇：MuZero算法过程详细解读

第96篇: 值分布强化学习（Distributional RL）总结

第95篇：如何提高"强化学习算法模型"的泛化能力?

第94篇：多智能体强化学习《星际争霸II》研究

第93篇：MuZero在Atari基准上取得了新SOTA效果

第92篇：谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇：详解用TD3算法通关BipedalWalker环境

第90篇：Top-K Off-Policy RL论文复现

第89篇：腾讯开源分布式多智能TLeague框架

第88篇：分层强化学习(HRL)全面总结

第87篇：165篇CoRL2020 accept论文汇总

第86篇：287篇ICLR2021深度强化学习论文汇总

第85篇：279页总结"基于模型的强化学习方法"

第84篇：阿里强化学习领域研究助理/实习生招聘

第83篇：180篇NIPS2020顶会强化学习论文

第82篇：强化学习需要批归一化(Batch Norm)吗？

第81篇：《综述》多智能体强化学习算法理论研究

第80篇：强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇：强化学习如何tradeoff"探索"和"利用"？

第77篇：深度强化学习工程师/研究员面试指南

第76篇：DAI2020 自动驾驶挑战赛(强化学习)

第75篇：Distributional Soft Actor-Critic算法

第74篇：【中文公益公开课】RLChina2020

第73篇：Tensorflow2.0实现29种深度强化学习算法

第72篇：【万字长文】解决强化学习"稀疏奖励"

第71篇：【公开课】高级强化学习专题

第70篇：DeepMind发布"离线强化学习基准“

第69篇：深度强化学习【Seaborn】绘图方法

第68篇：【DeepMind】多智能体学习231页PPT

第67篇：126篇ICML2020会议"强化学习"论文汇总

第66篇：分布式强化学习框架Acme，并行性加强

第65篇：DQN系列(3): 优先级经验回放(PER)

第64篇：UC Berkeley开源RAD来改进强化学习算法

第63篇：华为诺亚方舟招聘 || 强化学习研究实习生

第62篇：ICLR2020- 106篇深度强化学习顶会论文

第61篇：David Sliver 亲自讲解AlphaGo、Zero

第60篇：滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇：Agent57在所有经典Atari 游戏中吊打人类

第58篇：清华开源「天授」强化学习平台

第57篇：Google发布"强化学习"框架"SEED RL"

第56篇：RL教父Sutton实现强人工智能算法的难易

第55篇：内推 || 阿里2020年强化学习实习生招聘

第54篇：顶会 || 65篇"IJCAI"深度强化学习论文

第53篇：TRPO/PPO提出者John Schulman谈科研

第52篇：《强化学习》可复现性和稳健性，如何解决？

第51篇：强化学习和最优控制的《十个关键点》

第50篇：微软全球深度强化学习开源项目开放申请

第49篇：DeepMind发布强化学习库 RLax

第48篇：AlphaStar过程详解笔记

第47篇：Exploration-Exploitation难题解决方法

第46篇：DQN系列(2): Double DQN 算法

第45篇：DQN系列(1): Double Q-learning

第44篇：科研界最全工具汇总

第43篇：起死回生|| 如何rebuttal顶会学术论文?

第42篇：深度强化学习入门到精通资料综述

第41篇：顶会征稿 || ICAPS2020: DeepRL

第40篇：实习生招聘 || 华为诺亚方舟实验室

第39篇：滴滴实习生|| 深度强化学习方向

第38篇：AAAI-2020 || 52篇深度强化学习论文

第37篇：Call For Papers# IJCNN2020-DeepRL

第36篇：复现"深度强化学习"论文的经验之谈

第35篇：α-Rank算法之DeepMind及Huawei改进

第34篇：从Paper到Coding, DRL挑战34类游戏

第33篇：DeepMind-102页深度强化学习PPT

第32篇：腾讯AI Lab强化学习招聘(正式/实习)

第31篇：强化学习，路在何方？

第30篇：强化学习的三种范例

第29篇：框架ES-MAML：进化策略的元学习方法

第28篇：138页“策略优化”PPT--Pieter Abbeel

第27篇：迁移学习在强化学习中的应用及最新进展

第26篇：深入理解Hindsight Experience Replay

第25篇：10项【深度强化学习】赛事汇总

第24篇：DRL实验中到底需要多少个随机种子？

第23篇：142页"ICML会议"强化学习笔记

第22篇：通过深度强化学习实现通用量子控制

第21篇：《深度强化学习》面试题汇总

第20篇：《深度强化学习》招聘汇总(13家企业）

第19篇：解决反馈稀疏问题之HER原理与代码实现

第18篇："DeepRacer" —顶级深度强化学习挑战赛

第17篇：AI Paper | 几个实用工具推荐

第16篇：AI领域：如何做优秀研究并写高水平论文？

第15篇：DeepMind开源三大新框架！

第14篇：61篇NIPS2019DeepRL论文及部分解读

第13篇：OpenSpiel(28种DRL环境+24种DRL算法)

第12篇：模块化和快速原型设计Huskarl DRL框架

第11篇：DRL在Unity自行车环境中配置与实践

第10篇：解读72篇DeepMind深度强化学习论文

第9篇：《AutoML》：一份自动化调参的指导

第8篇：ReinforceJS库（动态展示DP、TD、DQN）

第7篇：10年NIPS顶会DRL论文(100多篇)汇总

第6篇：ICML2019-深度强化学习文章汇总

第5篇：深度强化学习在阿里巴巴的技术演进

第4篇：深度强化学习十大原则

第3篇：“超参数”自动化设置方法---DeepHyper

第2篇：深度强化学习的加速方法

第1篇：深入浅出解读"多巴胺（Dopamine）论文"、环境配置和实例分析

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》的相关文章

Apache Druid源码导读--Google guice DI框架

文章目录缘起Google Guice介绍与Spring的对比Example覆盖已有绑定关系默认绑定 Apache Druid中Guice模块guice lifecycleguice jsonconfigguice jersey jetty
[gevent源码分析] 深度分析gevent运行流程

一直对gevent运行流程比较模糊 xff0c 最近看源码略有所得 xff0c 不敢独享 xff0c 故分享之 gevent是一个高性能网络库 xff0c 底层是libevent xff0c 1 0版本之后是libev xff0c 核心是g
TCP服务器端和客户端程序设计

一实验目的学习和掌握Linux下的TCP服务器基本原理和基本编程方法体会TCP与UDP编程的不同 xff0c UDP编程 xff1a http blog csdn net yueguanghaidao article details
UDP服务器端和客户端程序设计

实验三 UDP服务器端程序设计一实验目的学习和掌握Linux下的UDP服务器基本原理和基本编程方法 xff0c 体会与TCP的区别 xff0c TCP编程 xff1a http blog csdn net yueguanghaidao
python实现的文本编辑器

wxpython实现的文本编辑器效果如下 xff1a 主要功能 xff1a 1 编辑保存文本 xff0c 打开修改文本 2 常用快捷键 xff0c 复制 xff0c 粘贴 xff0c 全选等 3 支持撤销功能 4 支持弹出式菜单代码如下
C语言开发Linux下web服务器(支持GET/POST,SSL,目录显示等)

这个主要是在CSAPP基础上做的 xff0c 添加了POST xff0c SSL xff0c 目录显示等功能一实现功能 xff1a 1 支持GET POST方法 2 支持SSL安全连接即HTTPS 3 支持CGI 4 基于IP地址和掩码
CMD命令提示符窗口基本样式属性设置

本篇文章主要针对Win7系统的CMD命令提示窗口 xff0c Win10系统中的CMD命令提示窗口其本身可以随意拖动放大缩小由于默认的系统中 xff0c Win系统的CMD命令提示窗口过小 xff0c 通过设置其基本的属性 xff0c
sklearn2pmml xgboost缺失值(missing)处理的坑

sklearn2pmml xgboost缺失值 missing 处理的坑今天同事在部署xgboost pmml模型时遇到了大坑 xff0c 线上spark预测和本地python预测结果怎么都不对应 xff0c 记录一下处理过程看了下同事
Js作用域与作用域链详解

一直对Js的作用域有点迷糊 xff0c 今天偶然读到Javascript权威指南 xff0c 立马被吸引住了 xff0c 写的真不错我看的是第六版本 xff0c 相当的厚 xff0c 大概1000多页 xff0c Js博大精深 xff0c
华硕笔记本不小心BIOS恢复出厂设置，电脑找不到硬盘启动项

进BOIS Secure Boot Control Disable Boot Launch CSM Enabled 重启电脑就好了
Asterisk PJSIP中继（IMS）呼叫开启VoLTE手机出现一接通就自动挂机问题

目录一问题描述二分析过程 1 网络抓SIP协议包三解决办法版权声明本文为博主宽简厚重 Yuesichiu 原创文章未经博主允许不得转载 https blog csdn net yuesichiu article deta
Asterisk支持从P-Preferred-Identity/P-Asserted-Identity/Remote-Party-ID中获取CID和DID

一概述 nbsp nbsp nbsp nbsp 主叫身份识别是指用于给被叫用户显示主叫呼入信息被叫身份识别是指被叫接收到远端呼入后如何识别被叫信息确实是呼叫自身在IMS中针对From To头域比较淡化作为主被叫识别的关键头域为新
Asterisk修改res_pjsip以支持IMS VoLTE tel URI Scheme

一概述 nbsp nbsp Asterisk 13 0 0到Asterisk 16 15 0这些官方版本都是不支持IMS VoLTE tel URI scheme RFC3966 假如将Asterisk部署在这几个版本环境中不可避免地会遇
OpenCV图像处理——拉普拉斯金字塔

拉普拉斯金字塔主要用于重建图像 xff0c 拉普拉斯就是为了在放大图像的时候 xff0c 可以预测残差 xff0c 何为残差 xff0c 即小图像放大的时候 xff0c 需要插入一些像素值 xff0c 在上文直接插入的是 0 xff0c 拉
OpenCV图像处理——数字图像处理基本操作

1 读取和显示图像 xff1a 1 1 cv2 imread 函数 xff0c 原型 xff1a cv2 imread filename flags 参数 xff1a filepath xff1a 读入imge的完整路径 flags xff
海思平台水印功能实现之二定时器Timer

定时器可以自己创建或者直接使用POSIX Timer 我们这边水印每隔1秒刷新时间的时候使用的是POSIX Timer POSIX timer相关的操作主要包括创建一个timer timer create 设定timer timer se
库实现之分配内存对齐的程序aligned_malloc和aligned_free函数

分配内存管理对齐的程序 void aligned malloc int size int alignment void ptr 61 void malloc size 43 alignment if ptr void aligned 61
解决error while loading shared libraries: libXXX.so.X: cannot open shared object file: No such file

一问题运行hello程序时 xff0c 用到了自己编写的动态库在目录 usr local lib目录下 xff0c 运行时出现 error while loading shared libraries libhello so 1 ca
解决warning: incompatible implicit declaration of built-in function 'malloc'

由于代码中使用了malloc函数和字符串函数 xff0c 编译时出现错误 warning incompatible implicit declaration of built in function malloc warning incom
解决虚拟机安装64位系统“此主机支持 Intel VT-x，但 Intel VT-x 处于禁用状态”的问题

在Intel i5 4460的主机上安装Ubuntu 14 04 xff08 64位 xff09 xff0c 虚拟机使用的是Vmware 10 0 0 build 1295980 在新建好虚拟机 xff0c 运行时候就出现了VMware W

随机推荐

【CentOS7】yum安装时出现错误Errno 14 Couldn't resolve host的解决办法

在安装python sphinx时出现Errno 14 Couldn 39 t resolve host xff0c 什么东东 xff1f root 64 localhost jansson 1 2 yum install python s
SAS (Serial Attached SCSI) 技术详解

xff08 一 xff09 什么是SAS SAS xff08 Serial Attached SCSI xff09 即串行SCSI技术 xff0c 是一种磁盘连接技术 xff0c 它综合了并行SCSI和串行连接技术 xff08 如FC SS
mdadm命令解析

mdadm命令解析一在linux系统中目前以MD Multiple Devices 虚拟块设备的方式实现软件RAID 利用多个底层的块设备虚拟出一个新的虚拟设备并且利用条带化 stripping 技术将数据块均匀分布到多个磁盘上来提高
fio使用指南

这个文档是对fio 2 0 9 HOWTO文档的翻译 xff0c fio的参数太多了 xff0c 翻译这个文档时并没有测试每一个参数的功能和使用方法 xff0c 只有少量参数做了试验 xff0c 大部分的参数采用的是根据字面翻译或是个人理解
CentOS系统安装VNC详细步骤

下面是总结的详细配置步骤 xff0c 分享给大家一 VNC 远程控制 CentOS 系统 1 查看 CentOS 系统中是否有安装 vnc xff08 默认安装 xff09 输入命令 xff1a rpm q vnc vnc server
怎么看电脑CPU是几核?

对硬件的东西知之甚少 xff0c 保存在此 xff0c 以便以后查阅方法一鼠标右键桌面最下方的任务栏任务管理器性能查看cpu使用记录 xff0c 有几个窗口就是几核心cpu xff1b 方法二右键我的电脑属性硬件设备管理
linux批量远程控制

前提 xff1a 勉ssh秘钥登陆使用pdssh 1 配置主机列表 web list root 64 192 168 1 2 22 root 64 192 168 1 3 182 22 root 64 192 168 1 4 181 22
DataBinding详解

一开启DataBinding 在build gradle文件添加 android dataBinding enabled true 二生成DataBinding布局 1 光标在布局文件的根布局 gt 点击Alt 43 Enter gt
python批量删除txt文件中指定行

应用场景 xff1a 在深度学习项目中 xff0c 常常会处理各种数据集比如已经标注好的数据标签有三类 xff1a 人形汽车猫 xff0c 有一个新项目 xff0c 只需要识别人形 xff0c 那就需要把这个数据集进行处理 xff0c
Python.循环

一循环结构 xff1a 是程序控制流程的三大结构之一 xff08 三大手段方法之一 xff09 通过指定的条件将循环体进行有限次或无限次 xff08 死循环 xff09 地重复运行在Python中主要用到while和for函数实现二
bind详细学习

DNS DNS xff1a Domain Name Service 应用层协议 xff08 C S 53 udp 53 tcp xff09 域名分类 xff1a 最多可以有127级域名根域一级域名 xff1a Top Level Dom
C++ 指针常量、常量指针和常指针常量

1 指针常量如果在定义指针变量时候 xff0c 指针变量前用const修饰 xff0c 被定义的指针变量就变成了一个指针类型的常变量 xff0c 指针类型的常变量简称为指针常量格式如下数据类型 const 指针变量 61 变量名 xf
Jetpack初尝试 NavController，LiveData,DataBing,ViewModel,Paging

文章目录插件配置NavController 使用1 创建xml2 创建Activity3 res 创建navigation nav garden和说明流程 ViewModel 负责页面的数据LiveData onChangedObserv
移动固态硬盘删除分区（包括EFI分区）

新换电脑原始的固态硬盘大小是500G xff0c 担心不够用 xff0c 但电脑只有一个放置固态硬盘的位置 xff0c 所以打算将原装的500G固态换成1T固态 xff0c 原始500G固态改成移动固态硬盘原始500G固态一共有4个分区
Linux-OneNote的安装和使用

P3X OneNote是Linux的非官方应用程序 xff0c 允许用户直接从Linux平台创建和共享笔记安装第一种方法 xff1a Snap安装此部分转载自链接在Linux操作系统上使用非官方版OneNote最快捷最简单的方法是
Visual Studio运行控制台程序一闪而退的解决方法！

初学者在使用Visual Studio各个版本时 xff0c 在进行调试运行时 xff0c 会发现控制台总是一闪即退 xff0c 输出结果的窗口无法保持打开状态 xff01 其实问题是你执行时按的是F5还是Ctrl 43 F5 xff0c
C# Microsoft.ClearScript.V8脚本使用

1 ClearScript支持的功能和适用场景微软的 net是非常强大和灵活的 xff0c 除了C 体系脚本扩展 xff0c 也支持其他流行的脚本扩展 xff0c Microsoft ClearScript V8就是一个 NET绑定到Go
WSL2中使用systemctl报错Failed to connect to bus: Host is down

问题截图 xff1a System has not been booted with systemd as init system PID 1 Can t operate Failed to connect to bus Host is d
dom4j的Element

1 Element其中的一个Element为dom4j 创建Element xff0c 通过DocumentHelper createElement xff08 name xff09 如 xff1a Element result 61 Do
【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

深度强化学习实验室官网 xff1a http www neurondance com 论坛 xff1a http deeprl neurondance com 编辑 xff1a DeepRL 强化学习与控制是一门由清华大学智能驾驶课题组

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》 的相关文章

随机推荐

热门标签

【重磅推荐: 强化学习课程】清华大学李升波老师《强化学习与控制》的相关文章