深度强化学习入门：用TensorFlow构建你的第一个游戏AI

2023-11-17

本文通过一种简单的 Catch 游戏介绍了深度强化学习的基本原理，并给出了完整的以 Keras 为前端的 TensorFlow 代码实现，是入门深度强化学习的不错选择。

GitHub 链接：https://github.com/JannesKlaas/sometimes_deep_sometimes_learning/blob/master/reinforcement.ipynb

去年，DeepMind 的 AlphaGo 以 4-1 的比分打败了世界围棋冠军李世乭。超过 2 亿的观众就这样看着强化学习（reinforce learning）走上了世界舞台。几年前，DeepMind 制作了一个可以玩 Atari 游戏的机器人，引发轩然大波。此后这个公司很快被谷歌收购。

很多研究者相信，强化学习是我们创造通用人工智能（Artificial General Intelligence）的最佳手段。这是一个令人兴奋的领域，有着许多未解决的挑战和巨大的潜能。

强化学习起初看似非常有挑战性，但其实要入门并不困难。在这篇文章中，我们将创造一个基于 Keras 的简单机器人，使它能玩 Catch 游戏。

Catch 游戏

原始的 Catch 游戏界面

Catch 是一个非常简单的街机游戏，你可能在孩提时代玩过它。游戏规则如下：水果从屏幕的顶部落下，玩家必须用一个篮子抓住它们；每抓住一个水果，玩家得一分；每漏掉一个水果，玩家会被扣除一分。这里的目标是让电脑自己玩 Catch 游戏。不过，我们不会使用这么漂亮的游戏界面。相反，我们会使用一个简单的游戏版本来简化任务：

简化的 Catch 游戏界面

玩 Catch 游戏时，玩家要决定三种可能的行为。玩家可以将篮子左移、右移或保持不动。这个决定取决于游戏的当前状态。也就是说，取决于果子掉落的位置和篮子的位置。我们的目标是创造这样一个模型：它能在给定游戏屏幕内容的情况下，选择导致得分最高的动作。

这个任务可以被看做一个简单的分类问题。我们可以让游戏专家多次玩这个游戏，并记录他们的行为。然后，可以通过选择类似于游戏专家的「正确」动作来训练模型。

但这实际上并不是人类学习的方式。人类可以在无指导的情况下，自学像 Catch 这样的游戏。这非常有用。想象一下，你如果每次想学习像 Catch 一样简单的东西，就必须雇佣一批专家玩这个游戏上千次！这必然非常昂贵而缓慢。

而在强化学习中，模型不会根据标记的数据训练，而是通过以往的经历。

深度强化学习

强化学习受行为心理学启发。我们并不为模型提供「正确的」行为，而是给予奖励和惩罚。该模型接受关于当前环境状态的信息（例如计算机游戏屏幕）。然后，它将输出一个动作，就像游戏手柄一样。环境将对这个动作做出回应，并提供下一个状态和奖惩行为。

据此，模型学习并寻找最大化奖励的行为。

实际上，有很多方式能够做到这一点。下面，让我们了解一下 Q-Learning。利用 Q-Learning 训练计算机玩 Atari 游戏的时候，Q-Learning 曾引起了轰动。现在，Q-Learning 依然是一个有重大意义的概念。大多数现代的强化学习算法，都是 Q-Learning 的一些改进。

理解 Q-Learning

了解 Q-Learning 的一个好方法，就是将 Catch 游戏和下象棋进行比较。

在这两种游戏中，你都会得到一个状态 S。在象棋中，这代表棋盘上棋子的位置。在 Catch 游戏中，这代表水果和篮子的位置。

然后，玩家要采取一个动作，称作 A。在象棋中，玩家要移动一个棋子。而在 Catch 游戏中，这代表着将篮子向左、向右移动，或是保持在当前位置。据此，会得到一些奖励 R 和一个新状态 S'。

Catch 游戏和象棋的一个共同点在于，奖励并不会立即出现在动作之后。

在 Catch 游戏中，只有在水果掉到篮子里或是撞到地板上时你才会获得奖励。而在象棋中，只有在整盘棋赢了或输了之后，才会获得奖励。这也就是说，奖励是稀疏分布的（sparsely distributed）。大多数时候，R 保持为零。

产生的奖励并不总是前一个动作的结果。也许，很早之前采取的某些动作才是获胜的关键。要弄清楚哪个动作对最终的奖励负责，这通常被称为信度分配问题（credit assignment problem）。

由于奖励的延迟性，优秀的象棋选手并不会仅通过最直接可见的奖励来选择他们的落子方式。相反，他们会考虑预期未来奖励（expected future reward），并据此进行选择。例如，他们不仅要考虑下一步是否能够消灭对手的一个棋子。他们也会考虑那些从长远的角度有益的行为。

在 Q-Learning 中，我们根据最高的预期未来奖励选行动。我们使用 Q 函数进行计算。这个数学函数有两个变量：游戏的当前状态和给定的动作。因此，我们可以将其记为 Q（state，action）。在 S 状态下，我们将估计每个可能的动作 A 所带来的的回报。我们假定在采取行动 A 且进入下一个状态 S' 以后，一切都很完美。

对于给定状态 S 和动作 A，预期未来奖励 Q（S，A）被计算为即时奖励 R 加上其后的预期未来奖励 Q（S'，A'）。我们假设下一个动作 A' 是最优的。

由于未来的不确定性，我们用 γ 因子乘以 Q（S'，A'）表示折扣：

Q(S,A) = R + γ * max Q(S'，A')

象棋高手擅长在心里估算未来回报。换句话说，他们的 Q 函数 Q（S，A）非常精确。大多数象棋训练都是围绕着发展更好的 Q 函数进行的。玩家使用棋谱学习，从而了解特定动作如何发生，以及给定的动作有多大可能会导致胜利。但是，机器如何评估一个 Q 函数的好坏呢？这就是神经网络大展身手的地方了。

最终回归

玩游戏的时候，我们会产生很多「经历」，包括以下几个部分：

初始状态，S
采取的动作，A
获得的奖励，R
下一状态，S'

这些经历就是我们的训练数据。我们可以将估算 Q（S，A）的问题定义为回归问题。为了解决这个问题，我们可以使用神经网络。给定一个由 S 和 A 组成的输入向量，神经网络需要能预测 Q（S，A）的值等于目标：R + γ * max Q(S'，A')。

如果我们能很好地预测不同状态 S 和不同行为 A 的 Q（S，A），我们就能很好地逼近 Q 函数。请注意，我们通过与 Q（S，A）相同的神经网络估算 Q（S'，A'）。

训练过程

给定一批经历 <S，A，R，S'>，其训练过程如下：

1、对于每个可能的动作 A'（向左、向右、不动），使用神经网络预测预期未来奖励 Q（S'，A'）；

2、选择 3 个预期未来奖励中的最大值，作为 max Q（S'，A'）；

3、计算 r + γ * max Q(S'，A')，这就是神经网络的目标值；

4、使用损失函数（loss function）训练神经网络。损失函数可以计算预测值离目标值的距离。此处，我们使用 0.5 * (predicted_Q(S,A)—target)² 作为损失函数。

在游戏过程中，所有的经历都会被存储在回放存储器（replay memory）中。这就像一个存储 <S，A，R，S'> 对的简单缓存。这些经历回放类同样能用于准备训练数据。让我们看看下面的代码：

        class ExperienceReplay(object):
    """
    During gameplay all the experiences < s, a, r, s’ > are stored in a replay memory. 
    In training, batches of randomly drawn experiences are used to generate the input and target for training.
    """
    def __init__(self, max_memory=100, discount=.9):
        """
        Setup
        max_memory: the maximum number of experiences we want to store
        memory: a list of experiences
        discount: the discount factor for future experience
        
        In the memory the information whether the game ended at the state is stored seperately in a nested array
        [...
        [experience, game_over]
        [experience, game_over]
        ...]
        """
        self.max_memory = max_memory
        self.memory = list()
        self.discount = discount

    def remember(self, states, game_over):
        #Save a state to memory
        self.memory.append([states, game_over])
        #We don't want to store infinite memories, so if we have too many, we just delete the oldest one
        if len(self.memory) > self.max_memory:
            del self.memory[0]

    def get_batch(self, model, batch_size=10):
        
        #How many experiences do we have?
        len_memory = len(self.memory)
        
        #Calculate the number of actions that can possibly be taken in the game
        num_actions = model.output_shape[-1]
        
        #Dimensions of the game field
        env_dim = self.memory[0][0][0].shape[1]
        
        #We want to return an input and target vector with inputs from an observed state...
        inputs = np.zeros((min(len_memory, batch_size), env_dim))
        
        #...and the target r + gamma * max Q(s’,a’)
        #Note that our target is a matrix, with possible fields not only for the action taken but also
        #for the other possible actions. The actions not take the same value as the prediction to not affect them
        targets = np.zeros((inputs.shape[0], num_actions))
        
        #We draw states to learn from randomly
        for i, idx in enumerate(np.random.randint(0, len_memory,
                                                  size=inputs.shape[0])):
            """
            Here we load one transition <s, a, r, s’> from memory
            state_t: initial state s
            action_t: action taken a
            reward_t: reward earned r
            state_tp1: the state that followed s’
            """
            state_t, action_t, reward_t, state_tp1 = self.memory[idx][0]
            
            #We also need to know whether the game ended at this state
            game_over = self.memory[idx][1]

            #add the state s to the input
            inputs[i:i+1] = state_t
            
            # First we fill the target values with the predictions of the model.
            # They will not be affected by training (since the training loss for them is 0)
            targets[i] = model.predict(state_t)[0]
            
            """
            If the game ended, the expected reward Q(s,a) should be the final reward r.
            Otherwise the target value is r + gamma * max Q(s’,a’)
            """
            #  Here Q_sa is max_a'Q(s', a')
            Q_sa = np.max(model.predict(state_tp1)[0])
            
            #if the game ended, the reward is the final reward
            if game_over:  # if game_over is True
                targets[i, action_t] = reward_t
            else:
                # r + gamma * max Q(s’,a’)
                targets[i, action_t] = reward_t + self.discount * Q_sa
        return inputs, targets

定义模型

现在让我们定义这个利用 Q-Learning 学习 Catch 游戏的模型。我们使用 Keras 作为 Tensorflow 的前端。我们的基准模型是一个简单的三层密集网络。这个模型在简单版的 Catch 游戏当中表现很好。你可以在 GitHub 中找到它的完整实现过程。

你也可以尝试更加复杂的模型，测试其能否获得更好的性能。

        num_actions = 3  # [move_left, stay, move_right]
hidden_size = 100 # Size of the hidden layers
grid_size = 10 # Size of the playing field

def baseline_model(grid_size,num_actions,hidden_size):
    #seting up the model with keras
    model = Sequential()
    model.add(Dense(hidden_size, input_shape=(grid_size**2,), activation='relu'))
    model.add(Dense(hidden_size, activation='relu'))
    model.add(Dense(num_actions))
    model.compile(sgd(lr=.1), "mse")
    return model

探索

Q-Learning 的最后一种成分是探索。日常生活的经验告诉我们，有时候你得做点奇怪的事情或是随机的手段，才能发现是否有比日常动作更好的东西。

Q-Learning 也是如此。总是做最好的选择，意味着你可能会错过一些从未探索的道路。为了避免这种情况，学习者有时会添加一个随机项，而未必总是用最好的。我们可以将定义训练方法如下：

        def train(model,epochs):
    # Train
    #Reseting the win counter
    win_cnt = 0
    # We want to keep track of the progress of the AI over time, so we save its win count history
    win_hist = []
    #Epochs is the number of games we play
    for e in range(epochs):
        loss = 0.
        #Resetting the game
        env.reset()
        game_over = False
        # get initial input
        input_t = env.observe()
        
        while not game_over:
            #The learner is acting on the last observed game screen
            #input_t is a vector containing representing the game screen
            input_tm1 = input_t
            
            #Take a random action with probability epsilon
            if np.random.rand() <= epsilon:
                #Eat something random from the menu
                action = np.random.randint(0, num_actions, size=1)
            else:
                #Choose yourself
                #q contains the expected rewards for the actions
                q = model.predict(input_tm1)
                #We pick the action with the highest expected reward
                action = np.argmax(q[0])

            # apply action, get rewards and new state
            input_t, reward, game_over = env.act(action)
            #If we managed to catch the fruit we add 1 to our win counter
            if reward == 1:
                win_cnt += 1        
            
            #Uncomment this to render the game here
            #display_screen(action,3000,inputs[0])
            
            """
            The experiences < s, a, r, s’ > we make during gameplay are our training data.
            Here we first save the last experience, and then load a batch of experiences to train our model
            """
            
            # store experience
            exp_replay.remember([input_tm1, action, reward, input_t], game_over)    
            
            # Load batch of experiences
            inputs, targets = exp_replay.get_batch(model, batch_size=batch_size)
  
            # train model on experiences
            batch_loss = model.train_on_batch(inputs, targets)
            
            #sum up loss over all batches in an epoch
            loss += batch_loss
        win_hist.append(win_cnt)
    return win_hist

我将这个游戏机器人训练了 5000 个 epoch，结果表现得很不错！

Catch 机器人的动作

正如你在上述动图中看到的那样，机器人可以抓住从天空中掉落的苹果。为了将这个模型学习的过程可视化，我绘制了每一个 epoch 的胜利移动平均线，结果如下：

接下来做什么？现在，你已经对强化学习有了初步的直觉了解。我建议仔细阅读该教程的完整代码。你也可以试验看看。

你可能还想看看 Arthur Juliani 的系列介绍（https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-0-q-learning-with-tables-and-neural-networks-d195264329d0）。如果你需要一个更加正式的入门课，可以看看

Stanford's CS 234：http://web.stanford.edu/class/cs234/index.html

Berkeley's CS 294：http://rll.berkeley.edu/deeprlcourse/

或是 David Silver's lectures from UCL：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

训练你的强化学习技能最好是通过 OpenAI's Gym（https://gym.openai.com/envs/），它使用标准化的应用程序界面（API）提供了一系列训练环境

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度强化学习入门：用TensorFlow构建你的第一个游戏AI 的相关文章

scikit-learn 中 ColumnTransformer 的自定义 Transformer 出现问题

我想在 scikit learn 中创建一个稳定的管道来预处理数据我试图完成的第一步是估算None对数据框中不同列应用不同策略的值即用平均值中位数或其他描述性统计数据替换但是我我开始使用SimpleImputer变压器连同Col
httplib.BadStatusLine: '' 在 Linux 上，但在 Mac 上则不然

这个错误已经困扰我几个小时了我决定编写一个单独的项目只是为了看看我是否可以复制它而且我可以但只能在我的服务器上复制这适用于我的 Mac Mac OSX El Capitan 10 11 6 服务器 CentOS 7 2 1511
从一个数组中删除另一个数组中的元素

假设我有这些二维数组A and B 我怎样才能从中删除元素A那些在B 集合论中的补集 A B A np asarray 1 1 1 1 1 2 1 1 3 1 1 4 B np asarray 0 0 0 1 0 2 1 0 3 1 0 4
在Linux中的端口80上运行flask[重复]

这个问题在这里已经有答案了也许以前有过这个问题的答案所以请重定向我如果是这样的话我正在考虑在端口 80 上运行 Flask 所以我检查了是否有任何东西正在使用端口 80 因为事实证明端口 80 没有运行所以当我输入以下内容时 if
Python 如果 kwargs 中的 key 并且 key 为 true

if force in kwargs and kwargs force is True 感觉应该有更好的方法来编写这个条件因为我重复了键和变量假设您确实想检查返回的关键字参数是否is True 这是另一种稍微不同的方式 if kwarg
matplotlib get_color 用于子图

我正在按照这里的教程进行操作 https matplotlib org gallery ticks and spines multiple yaxis with spines html https matplotlib org galler
如何从数据库模式自动生成示例 Django 应用程序？

我正在评估概念验证应用程序的框架该应用程序的生命周期约为 30 天之后它将被遗忘或完全重写我已确定要从现有数据库模式自动生成示例应用程序然后调整视觉设计的某些方面我看过一个演示红宝石 on Rails 它会为数据库中的每个表自动生
python 打开相对文件夹中所有以.txt结尾的文件

我需要打开并解析文件夹中的所有文件但我必须使用相对路径类似于 input files 我知道在 JavaScript 中你可以使用 path 库来解决这个问题我怎样才能在Python中做到这一点这样您就可以获得路径中的文件列表作为列
如何逐行替换（更新）文件中的文本

我试图通过读取每一行测试它然后写入是否需要更新来替换文本文件中的文本我不想保存为新文件因为我的脚本已经先备份文件并对备份进行操作这是我到目前为止所拥有的我从 os walk 获取路径并且保证 pathmatch var 正确返
Python中非常大的整数的math.pow是错误的[重复]

这个问题在这里已经有答案了我试图通过计算一个整数的非常大的幂来打印一个非常大的数字尽管我的代码是正确的但我没有观察到所需的输出一般来说 Python解释器可以打印系统内存支持的非常大的整数考虑到这个假设下面是我正在运行的代码 a
如何在Python中重命名virtualenv？

我拼错了名字virtualenv使用以下方法初始化它 virtualenv vnev 我实际上打算创建一个名为的环境venv 尝试重命名后vnev文件夹到venv 我发现这并没有提供太多帮助激活环境的名称仍然重命名旧的vnev mv vn
使用 mechanize 和 beautiful soup 在 python 中进行原始 HTML 与 DOM 抓取

我正在尝试编写一个程序作为示例该程序将从该网页上刮掉最高价格 http www kayak com flights JFK PAR 2012 06 01 2012 07 01 1adults http www kayak com fli
Web 应用程序框架：C++ 与 Python

作为一名程序员我熟悉 Python 和 C 我正在考虑编写自己的简单 Web 应用程序并且想知道哪种语言更适合服务器端 Web 开发我正在寻找一些东西它必须是直观的我认识到 Wt 存在并且它遵循 Qt 的模型我讨厌 Qt 的一件
Python：使用Excel CSV文件仅读取某些列和行

虽然我可以读取 csv 文件而不是读取整个文件但如何仅打印某些行和列想象一下这是 Excel A B C D E State Heart Disease Rate Stroke Death Rate HIV Diagnosis Rate
Python 柯里化任意数量的变量

我正在尝试使用柯里化在 Python 中进行简单的函数添加我找到了这个咖喱装饰器here https gist github com JulienPalard 021f1c7332507d6a494b def curry func def
无法从源 pylance 解析导入烧瓶

我正在学习 Python 课程的一部分是使用 Flask 设置网络服务器我按照 Flask 安装文档执行了步骤由于某种原因 flask 模块带有下划线如下所示当我将鼠标悬停时我会得到如下附加信息无法从源 pylance 解析导入
类型错误：不可散列的类型：pandas 的“切片”

我有一个 pandas 数据结构我这样创建 test inputs pd read csv input test csv delimiter 它的形状 print test inputs shape is this 28000 784 我
打包布尔数组需要通过 int (numpy 1.8.2)

我正在寻找更紧凑的方式来存储布尔值 numpy 内部需要 8 位来存储一个布尔值但是np packbits允许打包他们这真是太酷了问题是要打包在4e6字节数组a32e6字节我们需要首先使用的布尔值数组256e6字节将布尔数组转换为
如何从集合中检索元素而不删除它？

假设如下 gt gt gt s set 1 2 3 我如何获得一个值任何值 s不做s pop 我想将该项目保留在集合中直到我确定可以删除它这只有在异步调用另一个主机之后才能确定又快又脏 gt gt gt elem s pop gt
根据键的重复值从列表中删除字典

我是Python新手假设我有以下字典列表 mydictList a 1 b 2 c 3 a 2 b 2 c 4 a 2 b 3 c 4 从上面的列表中我想删除具有相同键 b 值的字典所以结果列表应该是 mydictList a 1 b

随机推荐

JAVA（Object和String）一 Object类和String字符串的理解和使用

JAVA Object和String 一 Object类和String字符串的理解和使用 Object类 String类 Object类理解在JAVA中有一个非常特殊的类叫做Object类 JAVA里面所有的类都继承自Object类我
Git下载/查看/切换/新建分支

1 git下载指定分支代码 git clone b branchname https github com xxx xxx git 2 看分支 git branch 列出本地已经存在的分支并且当前分支会用标记 git branch r
Element ui Dialog弹出框宽度固定不变

一般我们引用Dialog弹出框时弹出框的大小都是用width 30 这样来设置这样的话我们在缩小屏幕的时候弹出框就会根据你缩小屏幕的宽度的百分比来设置这样你弹出框里面的东西就会溢出如果你不想溢出就把宽度写成width 500px 这
文件上传服务器例子，服务器端的程序优化

package cn dali4 code04ex 此程序优化了文件名这样可以随机生成文件名给服务器写了循环可以一直监听开启了多线程优化了执行的效率 import java io import java net ServerSoc
C++代码注释详解

常用注释语法注释写在对应的函数或变量前面 JavaDoc类型的多行注释风格如下这里为注释一般注释中有简要注释和详细注释简要注释有多种标识方式这里推荐使用 brief命令强制说明例如 brief 这里为简要注释这里为详细注释 b
正确使用g2o各类线性方程求解器

g2o LinearSolverEigen g2o LinearSolverDense g2o LinearSolverCSparse g2o LinearSolverCholmod是常用的线性方程求解器一套可运行程序包括不同梯度下降优
Python中的异常处理raise介绍

文章目录 0 介绍 1 raise 介绍案例 2 raise 不需要参数案例 3 raise 单独一个 raise 正常程序使用无参的 raise 4 其它案例 4 1 案例1 4 2 案例2 5 处理流程总结 0 介绍问题1 是否
eslint 搭配 vscode 的简单使用

前言刚开始时由于嫌麻烦并没有安装eslint 最近在新的项目上使用了eslint再配合vscode的插件真是爽的不要太爽因此打算写一篇简单的食用说明来记录食用过程前期准备没啥好准备的作为开发肯定是具备yarn和node的编
WINDOWS键盘钩子

最近有个需求做的时候碰到需要捕获某个程序的特定按键并且在该程序处于焦点并且按下特定键如F1 时让主板的蜂鸣器响一声以提示由于该程序没有源码因此只能通过编写服务挂全局钩子来对该程序的键盘消息进行捕获大致的代码结构是使用VC现编写了一个
Linux Debian上快速安装Docker并运行

要在Debian上安装Docker 可以按照以下步骤进行更新系统软件包在终端中执行以下命令更新系统软件包 sudo apt get update 安装依赖包在终端中执行以下命令安装Docker需要的依赖包 sudo apt get
Echarts折线图x轴刻度距离

在 ECharts 折线图中 x 轴刻度的距离是根据数据的数量和实际绘图区域的宽度来确定的 ECharts 会根据数据的数量自动计算出 x 轴上每个刻度之间的距离以适应绘图区域的宽度如果希望手动设置 x 轴刻度的距离可以使用以下两种方
解决PowerDesigner里允许字段重名约束的设置问题

让tomcat支持中文路径名将conf server xml中的
mfc入门基础（六）创建模态对话框与非模态对话框

参考博客 VS2010 MFC编程入门之十一对话框模态对话框及其弹出过程软件开发鸡啄米一创建模态对话框 1 接着上节中的test02的例子来讲找到test02 cpp文件找到函数InitInstance 然后因为上节我们实
setuptools清华源_setuptools与pip的依赖关系解决方案之间的差异

我最近开始用SetupTools打包我的第一个项目并且大部分都取得了成功 setuptools与pip的依赖关系解决方案之间的差异不幸的是我遇到了一个令人困惑的情况我的项目依赖于PyPI上没有的单个文件模块我已经能够使用depen
RandLA-Net结果可视化(将结果保存到本地再通过cloudcompare可视化)

RandLA Net结果可视化将结果保存到本地再通过cloudcompare可视化问题 RandLA Net官网提供代码的可视化部分是通过open3d的方式呈现的但如果使用远端服务器去跑可能就无法实现可视化或者当我们的需要可视化的
卷积神经网络及其在图像处理中的应用

一前言卷积神经网络 Constitutional Neural Networks CNN 是在多层神经网络的基础上发展起来的针对图像分类和识别而特别设计的一种深度学习方法先回顾一下多层神经网络多层神经网络包括一个输入层和一个输出层
Linux framebuffer显示bmp图片

帧缓冲 framebuffer 是Linux为显示设备提供的一个接口把显存抽象后的一种设备他允许上层应用程序在图形模式下直接对显示缓冲区进行读写操作 framebuffer是LCD对应的一种HAL 硬件抽象层提供抽象的统一的接口操作
Zabbix的web界面基本操作

Zabbix的web界面基本操作一查看客户端运行状态 1 查看客户端监听端口 2 查看客户端服务及进程二服务端状态检查 1 服务端端口监听 2 查看客户端的hostname获取情况三 zabbix的web网页基本配置 1 登录查看
VisualStudio中添加LIb库、头文件、宏等常用配制

在VS工程中添加c c 工程中外部头文件及库的基本步骤 1 添加工程的头文件目录工程属性配置属性 c c 常规附加包含目录加上头文件存放目录 2 添加文件引用的lib静态库路径工程属性配置属性链接器常规附加库目录加
深度强化学习入门：用TensorFlow构建你的第一个游戏AI

本文通过一种简单的 Catch 游戏介绍了深度强化学习的基本原理并给出了完整的以 Keras 为前端的 TensorFlow 代码实现是入门深度强化学习的不错选择 GitHub 链接 https github com JannesKla

深度强化学习入门：用TensorFlow构建你的第一个游戏AI

深度强化学习入门：用TensorFlow构建你的第一个游戏AI 的相关文章

随机推荐

热门标签