深度强化学习

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

大家好今天和各位分享一下深度确定性策略梯度算法 Deterministic Policy Gradient DDPG 并基于 OpenAI 的 gym 环境完成一个小游戏完整代码在我的 GitHub 中获得 https github c

深度强化学习 Pytorch python 强化学习 DDPG

深度强化学习系列: “奖励函数”的设计和设置（reward shaping）

概述前面已经讲了好几篇关于强化学习的概述算法 DPG gt DDPG 也包括对环境OpenAI gym的安装 baseline算法的运行和填坑虽然讲了这么多算法也能够正常运行还取得不错的效果但是一直以来忽略了一个非常重要的话题那

深度强化学习 奖励函数设置 reward奖励函数设置 强化学习奖励设置 奖励函数设计j

【转】深度强化学习的加速方法

原文地址 https www matools com blog 190533310 Accelerated methods for deep reinforcement learning 论文解读深度强化学习一直以来都以智能体训练时间长

深度强化学习 深度学习 神经网络

DQN理论基础及其代码实现【Pytorch + CartPole-v0】

DQN算法的理论基础基于动态规划方法基于蒙特卡罗方法和基于时间差分的方法都有一个基本的前提条件状态空间和动作空间是离散的而且状态空间和动作空间不能太大这些强化学习方法的基本步骤是先评估值函数再利用值函数改善当前的策略这时的值函

Reinforcement Learning Pytorch 人工智能 强化学习 深度强化学习

深度强化学习系列(6): DQN原理及实现

利用神经网络近似值函数的方法表示为 V s w

深度强化学习 强化学习 DQN

多智能体强化学习与博弈论-博弈论基础3

多智能体强化学习与博弈论博弈论基础3 之前主要介绍了如何判断博弈中是否到达了纳什均衡在这篇文章中将主要介绍如何计算纳什均衡本文主要介绍下列几种情况下的纳什均衡两个智能体每个智能体有两个动作两个智能体每个智能体有多个动作零和博

深度强化学习 算法 线性代数

深度强化学习主流算法介绍（二）：DPG系列

之前的文章可以看这里深度强化学习主流算法介绍一 DQN系列相关论文在这里开始介绍DPG之前先回顾下DQN系列 DQN直接训练一个Q Network 去估计每个离散动作的Q值使用时选择Q值大的动作去执行贪婪策略 DQN可以处理每

深度强化学习 算法 深度学习 神经网络

论文翻译 —— Deep Reinforcement Learning from Human Preferences

标题 Deep Reinforcement Learning from Human Preferences 文章链接 Deep Reinforcement Learning from Human Preferences blogpost L

论文翻译 模仿学习 从人类示范中学习 深度强化学习

Unity-ML-Agents安装

目录 1 下载ML Agents 1 1 前往官网 1 2 选择版本 1 3 下载文件 2 下载Anaconda 3 虚拟环境 3 1 构建虚拟环境 3 2 创建项目导入package json 3 2 1 创建项目导入package

深度强化学习 Unity MLAgents python

2. 2019年《斯坦福大学CS330多任务和元学习》第2讲：多任务和元学习基础【中文字幕】

2019年斯坦福大学CS330多任务和元学习第2讲多任务和元学习基础中文字幕 https www bilibili com video BV17a4y1J7eG 斯坦福大学切尔西芬恩 Chelsea Finn 助理教授 http

深度强化学习 人工智能

深度强化学习系列: “奖励函数”的设计和设置（reward shaping）

概述前面已经讲了好几篇关于强化学习的概述算法 DPG gt DDPG 也包括对环境OpenAI gym的安装 baseline算法的运行和填坑虽然讲了这么多算法也能够正常运行还取得不错的效果但是一直以来忽略了一个非常重要的话题那

深度强化学习 奖励函数设置 reward奖励函数设置 强化学习奖励设置 奖励函数设计j

强化学习之混合动作空间

强化学习之混合动作空间基本介绍在强化学习的动作空间设定中有连续动作空间离散动作空间和混合动作空间在大多数的论文中研究的都是连续动作空间和离散动作空间而混合动作空间研究的比较少在游戏ai 自动驾驶等一些领域中有时动作空间可以是混合

深度强化学习 人工智能 算法 强化学习 深度学习

多智能体强化学习与博弈论-博弈论基础4

多智能体强化学习与博弈论博弈论基础4 本篇文章主要讲的是贝叶斯博弈 Bayesian Games 也称作不完全信息博弈和拍卖理论不完全信息博弈在我们生活中经常出现比如拍卖在市场和别人讨价还价等等贝叶斯博弈首先举一个贝叶斯博弈的

深度强化学习 人工智能 算法

DoubleDQN的理论基础及其代码实现【Pytorch + Pendulum-v0】

Double DQN 理论基础普通的 DQN 算法通常会导致对值的过高估计 overestimation 传统 DQN 优化的 TD 误差目标为 r max

Reinforcement Learning Pytorch 深度学习 强化学习 深度强化学习

(PPO)近端策略优化学习记录

PPO 近端策略优化学习记录 proximal policy optimization PPO 是策略梯度方法家族的一员在PPO被提出来之前它的哥哥 trust region policy optimization TRPO先被提出在

深度强化学习 强化学习 算法 人工智能

SAC(Soft Actor Critic)学习记录

SAC Soft Actor Critic 学习记录基本介绍 SAC Soft Actor Critic 算法在近年来受到了许多的关注得到了不少深度强化学习研究者的好评这篇文章主要包含的内容有SAC算法的理论分析和核心代码实现与许多

深度强化学习 强化学习 深度学习 机器学习 算法

多智能体强化学习基础知识（入门级）

参考资料王树森深度强化学习 https github com wangshusen DRL

深度强化学习 强化学习 人工智能

多智能体强化学习与博弈论-博弈论基础2

多智能体强化学习与博弈论博弈论基础2 Repeated Games 重复博弈之前我们介绍了一些单次博弈的例子除了单次博弈外重复博弈也是经常在我们生活中出现的在重复博弈中智能体有机会在单次的博弈中占到对手的便宜但是由于考虑到后来还

深度强化学习 强化学习 人工智能 算法

深度强化学习系列(2): ERROR: GLEW initalization error: Missing GL version

当深度强化学习之 6 中的环境安装好之后一阵欣喜觉得可以干大事了于是激动的不行迫不及待的想看效果然而幸福来的太快就容易让人失望的越厉害因此美好的事情总是值得多次磨砺废话不说了爆出的错误是这样的 Running trained

深度强化学习 ERROR GLEW initalization erro Creating window glfw ERROR GL

深度强化学习：PPO + AI2THOR问题总结

一 PPO代码选用的是如下repo中的PPO代码 https github com MorvanZhou Reinforcement learning with tensorflow tree master contents 二网络结构

深度强化学习