使用强化学习解决分类问题[关闭]

2023-11-25

我可以在分类上使用强化学习吗？比如人类活动识别？如何？

反馈有两种类型。一是评价性的用于强化学习方法，第二个是有指导意义的用于监督学习，主要用于分类问题。

当使用监督学习时，神经网络的权重根据训练数据集中提供的正确标签的信息进行调整。因此，在选择错误的类别时，损失会增加并调整权重，以便对于该类型的输入，不会再次选择该错误的类别。

然而，在强化学习中，系统explores所有可能的动作，在这种情况下各种输入的类标签，并通过评估奖励来决定什么是正确的，什么是错误的。也可能是这种情况，在获得正确的类标签之前，它可能会给出错误的类名称，因为它是迄今为止找到的最佳可能输出。因此，它没有利用我们对类标签的特定知识，因此减慢收敛速度与监督学习相比显着。

您可以使用强化学习来解决分类问题，但它不会给您带来任何额外的好处，反而会减慢您的收敛速度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

Classification

reinforcementlearning

使用强化学习解决分类问题[关闭] 的相关文章

XGBoost 产生预测结果和概率

我可能正在文档中查看它但我想知道 XGBoost 是否有办法生成结果的预测和概率就我而言我正在尝试预测多类分类器如果我能返回Medium 88 那就太好了分类器中预测概率 88 参数 params max depth 3 ob
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
Haar级联正例图像大小调整

我正在迈出第一步为自定义对象识别创建 haar 级联我花了时间获取大量数据并编写了一些预处理脚本以将视频转换为帧我的下一步是裁剪感兴趣的对象以创建一些积极的训练示例我有几个问题我确实在网上寻找答案我有点困惑我读到我应该致力于
单词预测算法

我确信有一篇关于此问题的帖子但我找不到提出这个确切问题的帖子考虑以下我们有字典可供使用我们收到了许多单词段落我希望能够根据此输入预测句子中的下一个单词假设我们有几个句子例如你好我的名字是汤姆他的名字是杰瑞他去了没有水的
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
在 Tensorflow2 中将图冻结为 pb

我们通过图形冻结保存来自 TF1 的许多模型 tf train write graph self session graph def some path get graph definitions with weights output g
如何用Python构建游戏神经网络？

我是神经网络初学者我想通过教计算机下跳棋来学习神经网络的基础知识其实我想学的游戏是盛气凌人 http en wikipedia org wiki Domineering and Hex http en wikipedia org wik
如何跨多个文本文件查找字典中键的频率？

我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率这里文档 individual articles 大约有20000个txt文件文件名为1 2 3 4 例如假设 d Britain 5 7
是否可以使用具有余弦相似度的 KDTree？

看来我不能使用这个相似度度量sklearn例如 KDTree 但我需要因为我正在使用测量单词向量相似度对于这种情况快速鲁棒定制算法是什么我知道关于Local Sensitivity Hashing 但它应该经过大量调整和测试才能找到
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
神经网络误差随每个训练示例而振荡

我已经实现了一个反向传播神经网络并根据我的数据对其进行了训练数据在英语和非洲语句子之间交替神经网络应该识别输入的语言网络结构为27 16 2 输入层对于字母表中的每个字母都有 26 个输入加上一个偏置单元我的问题是当遇到每个新的训
Encog：BasicNetwork：无需预先构建数据集的在线学习

我正在尝试使用 encog 库作为强化学习问题的函数逼近器更准确地说我正在尝试启动并运行多层感知器 BasicNetwork 由于我的代理将根据我选择的任何 RL 算法以某种方式探索世界因此我无法预先构建任何 BasicNeuralD
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
对于神经网络来说，拥有正态分布的数据重要吗？

因此与数据相关的标准操作之一就是对其进行归一化并将其标准化为均值为 0 标准差为 1 的正态分布数据对吧但是如果数据不是正态分布怎么办另外所需的输出也必须呈正态分布吗如果我希望我的前馈网络在两个类 1 和 1 之间进行分类
更改随机森林分类器的阈值

我需要开发一个没有或接近没有假阴性值的模型为此我绘制了召回率精度曲线并确定阈值应设置为 0 11 我的问题是如何定义模型训练时的阈值稍后在评估时定义它是没有意义的因为它不会反映新数据 X train X test y tr
为什么反向传播神经网络中必须使用非线性激活函数？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在阅读一些有关神经网络的内容并且了解单层神经网络的一般原理我理解需要额外的层但为什么要使用非线性激活函数这个问题后面跟着这个
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
如何组合多个朴素贝叶斯分类器的输出？

我是新来的我有一组使用 Sklearn 工具包中的朴素贝叶斯分类器 NBC 构建的弱分类器我的问题是如何结合每个 NBC 的输出来做出最终决定我希望我的决定是基于概率而不是标签我用 python 编写了以下程序我假设 sklean

随机推荐

您的实用工具包中有什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我认识的一些最高效的工程师开发人员和 IT 专业人员通常都会携带一个由有用程序插件或实用程序组成的通用工具包以帮助他们进行日常调试开发或设计问题是您的实用工具包中有什么
如何在 Visual Studio 2008 中添加 ASP.NET 的页面事件

这是一个 Visual Studio 问题我觉得所有有用的智能感知应该有一些帮助但我似乎找不到它我在 VS2008 中用 ASP NET C 制作了一个带有代码隐藏的页面当然它会自动生成 PageLoad 事件方法那么如果我想为
rjava .jcall 问题

我目前正在开发一个 R 包以将 java 代码集成到 R 中但是我在尝试正确调用 java 类方法时遇到问题到目前为止我已经独立开发了一个java程序并编译成class文件然后打包为jar文件我的代码示例如下 library rJ
在Android中设置每天在特定时间重复闹钟

我正在使用闹钟管理器在每天的特定时间运行闹钟下面是代码 Calendar calendar Calendar getInstance calendar setTimeInMillis System currentTimeMillis ca
使用 epoll 进行非阻塞 tcp 连接

我的 Linux 应用程序正在执行非阻塞 TCP 连接系统调用然后使用epoll wait检测三向握手完成有时epoll wait两者都返回POLLOUT POLLERR为同一套接字描述符设置的事件我想了解 TCP 级别发生了什么我
uisearchDisplayController：更改标签“无结果”

使用 uisearchDisplayController 时如何更改标签无结果 Regards 我已经成功删除了标签因为从来没有空结果集如果因为从服务器获取而没有结果请将数据源重置为单行并让它显示空白的表视图单元格此外使用逻辑
为什么我在尝试检查偶数/奇数时会收到“类型错误：字符串格式化期间未转换所有参数”？

这段代码给出了一个错误 print type a whole number n input if n 2 1 print Odd else print Even 我假设我必须对 if 语句中的变量 n 做一些特殊的事情我是 Python
simple_form的collection_radio_button和自定义标签类

我正在尝试使用 FontAwesome 制作带有无线电集合的星级评级表格为此我实际上需要更改 simple form 生成的 collection radio button 输入的标签类但找不到任何明显的解决方案到目前为止我使用 fo
GLM 如何处理翻译

OpenGL 数学库 GLM 使用以下算法来计算平移矩阵 taken from source code template
如何在Dataset中存储自定义对象？

根据Spark 数据集简介在我们期待 Spark 2 0 的同时我们计划对数据集进行一些令人兴奋的改进具体来说自定义编码器虽然我们目前自动生成各种类型的编码器但我们希望为自定义对象开放 API 并尝试将自定义类型存储在Datas
在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我以伪分布式模式在单台机器上安装了 Cloudera CDH4 发行版并成功测试了它是否正常工作例如可以运行 MapReduce 程序在 Hive 服务器上插入数据等但是如果我碰巧core site xml文件有fs defaul
JobIntentService onComplete 发生崩溃

我收到以下 Android 8 的崩溃报告但我找不到原因或解决此问题 java lang IllegalArgumentException Given work is not active JobWorkItem id 1 intent
Angular 2错误：加载块多次失败

我在服务器上部署了 Angular 2 应用程序该应用程序运行良好此外我还记录角度应用程序的错误以便我可以解决它们并使我的应用程序更加稳定我不断得到Loading chunk failed error Error Uncaught
在 javascript 中选择 OOP 模式

我在其他人的帮助和一些资源的帮助下将这些放在一起我做了一个一切的小提琴下面发布了精简的代码基本上我已经学会了如何使用这些模式但我很好奇这些方法之间更根本的区别下游代码实际上与这些模式中的任何一种都相同但是除了个人偏好之外是否有
我何时以及为什么应该在 Android 应用程序中使用片段？ [复制]

这个问题在这里已经有答案了我经常需要应用程序的不同部分拥有自己的特殊行为和 UI 但我不知道片段有何帮助在大多数情况下我认为创建 2 个不同的活动例如 1 个用于平板电脑 1 个用于手机并在第三类中共享常见行为和事件会更快那么
Java中如何获取unicode字符的十进制值？

我需要一种编程方式来获取字符串中每个字符的十进制值以便我可以将它们编码为 HTML 实体例如 UTF 8 著者名 Decimal 33879 32773 21517 我怀疑您只是对以下内容的转换感兴趣char to int 这是隐式的
如何在 PHP 中不使用 ord() 将字符串转换为 ASCII 值？

我正在寻找将字符串 Hello world 转换为 php 中的 ASCII 值但我不想使用ord 是否有其他解决方案可以在不使用的情况下打印 ascii 值ord unpack 根据给定的格式从二进制字符串解包到数组中 Use the
PHP cURL multi_exec 请求之间的延迟

如果我运行标准 cURL multi exec 函数下面的示例我会立即获得请求的所有 cURL 句柄我想在每个请求之间设置 100 毫秒的延迟有办法做到这一点吗在 Google 和 StackOverflow 搜索中未找到任何内容
在 VsCode 中激活 Anaconda 环境

我的系统上有 Anaconda VsCode 也在工作但是如何让 VsCode 在运行 python 脚本时激活特定环境只需使用 cmd shift P ctrl shift P for MS Windows Search 选择口译员
使用强化学习解决分类问题[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我可以在分类上使用强化学习吗比如人类活动识别如何反馈有两种类型一是评价性的用于强化学习方法第二个是有指导意义的用于监督学习主要用于分类问题当使用监督学习时神经网络的权

使用强化学习解决分类问题[关闭]

使用强化学习解决分类问题[关闭] 的相关文章

随机推荐

热门标签