强化学习+优化：如何做得更好？

2024-02-20

我正在学习如何使用强化学习进行优化。我选择的问题是最大匹配 https://en.wikipedia.org/wiki/Maximum_cardinality_matching在二分图中，因为我可以轻松计算出真正的最优值。

回想一下，图中的匹配是边的子集，其中没有两条边入射到同一节点/顶点上。目标是找到最大的此类子集。

我在下面展示了完整的代码，但首先让我解释一下其中的部分内容。

num_variables = 1000
g = ig.Graph.Random_Bipartite(num_variables, num_variables, p=3/num_variables)
g_matching = g.maximum_bipartite_matching()
print("Matching size", len([v for v in g_matching.matching if v < num_variables and v != -1]))

这将生成一个随机二部图，两组节点中每组都有 1000 个节点。然后它打印出真正最大匹配的大小。

在下面的代码中，self.agent_pos是一个数组，表示当前找到的匹配项。它的长度是原图中的边数，索引处有一个1i如果边缘i包含在内，否则为 0。self.matching是增长匹配中的边集。self.matching_nodes是增长匹配中的节点集，用于检查是否可以添加特定边。

import igraph as ig
from tqdm import tqdm
import numpy as np
import gym
from gym import spaces

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env

class MaxMatchEnv(gym.Env):
    metadata = {'render.modes': ['console']}
    def __init__(self, array_length=10):
        super(MaxMatchEnv, self).__init__()
        # Size of the 1D-grid
        self.array_length = array_length
        self.agent_pos = [0]*array_length
        self.action_space = spaces.Discrete(array_length)
        self.observation_space = spaces.Box(low=0, high=1, shape=(array_length,), dtype=np.uint8)
        self.matching = set()  # set of edges
        self.matching_nodes = set() # set of node ids (ints)
        self.matching_size = len([v for v in g_matching.matching if v < num_variables and v != -1])
        self.best_found = 0
        
    def reset(self):
        # Initialize the array to have random values
        self.time = 0
        #print(self.agent_pos)
        self.agent_pos = [0]*self.array_length
        self.matching = set()
        self.matching_nodes = set()
        return np.array(self.agent_pos)
    
        
    def step(self, action):
        self.time += 1 
        reward = 0
        edge = g.es[action]
        if not(edge.source in self.matching_nodes or edge.target in self.matching_nodes):
            self.matching.add(edge)
            self.matching_nodes.add(edge.source)
            self.matching_nodes.add(edge.target)
            self.agent_pos[action] = 1
            if sum(self.agent_pos) > self.best_found:
                self.best_found = sum(self.agent_pos)
                print("New max", self.best_found)
            reward = 1
        elif self.agent_pos[action] == 1:
            #print("Removing edge", action)
            self.matching_nodes.remove(edge.source)
            self.matching_nodes.remove(edge.target)
            self.matching.remove(edge)
            self.agent_pos[action] = 0
            reward = -1
        done = sum(self.agent_pos) == self.matching_size
        info = {}
        return np.array(self.agent_pos), reward, done, info

    def render(self, mode='console'):
        print(sum(self.agent_pos))

    def close(self):
        pass


if __name__ == '__main__':
 
    num_variables = 1000
    g = ig.Graph.Random_Bipartite(num_variables, num_variables, p=3/num_variables)
    g_matching = g.maximum_bipartite_matching()
    print("Matching size", len([v for v in g_matching.matching if v < num_variables and v != -1]))

    env = make_vec_env(lambda: MaxMatchEnv(array_length=len(g.es)), n_envs=12)

    model = PPO('MlpPolicy', env, verbose=1).learn(10000000)

这存在很多问题，但最主要的问题是它优化得不好。这段代码给出了刚刚超过 550 的结果，然后在真正的最佳值超过 900 的地方停止改进（它是由代码在开始时打印出来的）。

主要问题是：

如何才能做得更好，从而达到更好的匹配？

一个附属问题是，如何打印迄今为止找到的最佳匹配？我尝试使用 self.best_found 来保持最佳分数不起作用，因为它似乎会定期重置。

没有帮助的改变

将 PPO 更改为 DQN 只会产生微小的差异。
我尝试更改代码以便done1000 步后为 True。

变化如下：

if self.time == 1000:
    done = True
else:
    done = False

添加后print(max(env.get_attr("best_found")))代替print("New max", self.best_found)此更改为done完全没有显示出任何优势。

要打印您可以使用的每个环境的最大值get_attr方法来自稳定的基线。更多信息在他们的官方文档 https://stable-baselines.readthedocs.io/en/master/guide/vec_envs.html#stable_baselines.common.vec_env.DummyVecEnv.get_attr.

例如，下面的行将打印 12 个环境中每个环境的最大值，然后打印所有环境的最大值。

print(env.get_attr("best_found"))
print(max(env.get_attr("best_found")))

至于为什么它不收敛，可能是由于选择了错误的奖励，尽管看看你的奖励选择似乎是明智的。我在您的代码中添加了调试打印，以查看某些步骤是否导致done = True，但环境似乎永远不会达到那种状态。我认为对于模型的学习来说，有多个动作序列会导致一个状态done = True，这意味着模型将经历一个情节的结束。我没有详细研究您的代码中的问题，但也许这些信息可以帮助调试您的问题。

如果我们将问题与其他环境进行比较，例如CartPole https://gym.openai.com/envs/CartPole-v1/，我们的剧集以done = True这有助于模型学习更好的策略（在您的情况下，您可以限制每个情节的操作量，而不是永远运行同一情节）。这可以帮助模型避免陷入局部最优，因为你给它在新的情节中“重试”的机会。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

强化学习+优化：如何做得更好？的相关文章

如何使用 Elements 将持卡人姓名添加到 Stripe 结帐？

我需要在自定义表单中添加一个附加字段我想添加信用卡的名称我尝试了以下方式 var cardNameElement elements create cardName style style placeholder Custom card
如何使用 std::string 将所有出现的一个字符替换为两个字符？

有没有一种简单的方法来替换所有出现的 in a std string with 转义 a 中的所有斜杠std string 完成此操作的最简单方法可能是boost字符串算法库 http www boost org doc libs 1 46
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
ASP.NET MVC 6 (ASP.NET 5) 中的 Application_PreSendRequestHeaders 和 Application_BeginRequest

如何在 ASP NET 5 MVC6 中使用这些方法在 MVC5 中我在 Global asax 中使用了它现在呢也许是入门班 protected void Application PreSendRequestHeaders obj
根据 GLSL 中向量的特定分量执行最小-最大的最快方法？

我需要在我的 GLSL 代码中多次调用这种函数 vec2 minx vec2 a vec2 b if a x lt b x return a else return b 我担心过度分支有没有办法避免 if else 结构我建议使用 GL
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere
C 中的异或运算符

在进行按位操作时我在确定何时使用 XOR 运算符时遇到一些困难按位与和或非常简单当您想要屏蔽位时请使用按位 AND 常见用例是 IP 寻址和子网掩码当您想要打开位时请使用包含或然而 XOR 总是让我明白我觉得如果在面试中被问
如何在不声明新数据的情况下更改类型（String，Int）元组的 Ord 实例？

我正在尝试对类型列表进行排序 String Int 默认情况下它按字符串排序然后按整数排序如果字符串相等我希望它是相反的首先比较整数然后如果相等则比较字符串另外我不想切换到 Int String 我找到了一种通过定义实例来实
限制C#中的并行线程数

我正在编写一个 C 程序来生成并通过 FTP 上传 50 万个文件我想并行处理4个文件因为机器有4个核心文件生成需要更长的时间是否可以将以下 Powershell 示例转换为 C 或者是否有更好的框架例如 C 中的 Actor 框
如何在 Jquery/Javascript 中绑定模糊和更改，但只触发一次函数？

我试图在选择元素更改时触发函数由于 Ipad 在 on change 方面遇到问题我还想绑定到 blur 这在 Ipad 上工作得很好但是我不希望两个事件都触发该函数两次所以我需要某种挂钩来确保两个事件是否都触发change and
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
张量流中的复杂卷积

我正在尝试运行一个简单的卷积但包含复数 r np random random 1 10 10 10 i np random random 1 10 10 10 x tf complex r i conv layer tf layers c
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
CGImage/UIImage 在 UI 线程上延迟加载会导致卡顿

我的程序显示一个水平滚动表面从左到右平铺有 UIImageViews 代码在 UI 线程上运行以确保新可见的 UIImageView 分配有新加载的 UIImage 加载发生在后台线程上一切工作几乎都很好除了每个图像变得可见时出现口
如何在 PHP 中从字符串类名实例化？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何创建返回方法名称的新实例不幸的是我收到这个错误错误类名必须是有效的对象或字符串这是我的代码 class Foo public f
Git 提交失败：“请使用 -m 或 -F 选项提供消息。”

当我键入 git commit 命令来提交文件时我收到以下错误消息 Microsoft Visual Studio 微软找不到命令错误核心编辑器 Microsoft Visual Studio 存在问题请使用 m 或 F 选项提供
如何使用配置文件 (.ebextensions) 在 AWS Elastic Beanstalk 上安装 PHP IMAP 扩展？

有谁知道如何使用配置文件 ebextensions 在 AWS Elastic Beanstalk 上安装和启用 PHP IMAP 扩展我使用的是 64 位 Amazon Linux 2017 03 v2 4 0 运行 PHP 7 0 1
使用 libcurl 检查 SFTP 站点上是否存在文件

我使用 C 和 libcurl 进行 SFTP FTPS 传输在上传文件之前我需要检查文件是否存在而不实际下载它如果该文件不存在我会遇到以下问题 set up curlhandle for the public private ke
使用按位运算符相乘

我想知道如何使用按位运算符将一系列二进制位相乘但是我有兴趣这样做来查找二进制值的十进制小数值这是我正在尝试做的一个例子假设 1010010 我想使用每个单独的位以便将其计算为 1 2 1 0 2 2 1 2 3 0 2 4 虽然我
为什么使用 iPhone 或 iOS 设备在“iframe”中查看“position:fixed”时不起作用？

我研究过 stackoverflow 似乎position fixed在 iOS 移动设备的 iframe 中 https stackoverflow com questions 15874910 position fixed and if

随机推荐

自动生成层次结构值

我有一个带列的树表ID ParentID and Hierarchy并想要生成Hierarchy列值取决于ParentID 为此我使用触发器是否存在更好的方法来生成层次结构列值 ALTER TRIGGER TR MyTable Befo
使用 Paramiko 保留时间戳

使用 Paramiko 将 SFTP 文件从一台服务器传输到另一台服务器时是否有一种方法可以保留时间戳类似于 pLinux 中的争论原始文件 jim vm3634 ls la rwxrwx 1 jim admin 2214 Mar 3
如何列出检查点中的某些变量？

我正在使用自动编码器我的检查点包含网络的完整状态即编码器解码器优化器等我想玩弄编码因此在我的评估模式中我只需要网络的解码器部分如何从现有检查点中仅读取一些特定变量以便我可以在另一个模型中重用它们的值 There s li
计算 sqlalchemy 模型中的相关项数

我正在尝试计算各自类别中的项目数量并最终得到一个可以在 jinja 模板中迭代的集合我的最终输出是这样的类别1 5 类别2 10 类别3 0 零物品案例很重要我的模型是 class Category Base tablename c
是否可以从 VS Code 内的 Android 或 iOS 模拟器查看 SQLite 数据库？

我正在 Flutter 中编写一个跨平台移动应用程序但遇到了 SQLite 数据库的错误为了调试它我真的希望能够查看数据库中保存的内容由于这是移动开发因此数据库文件保存在模拟器内以及我的 Android 手机内是否可以从模拟器
如何在 ExcelInterop 中查找第一个和最后一个单元格以及 C# 中的图形范围

尝试在 Excel 中绘制一个简单的 csv 文件 1 2 3 4 5 6 7 8 9 如何以编程方式确定绘图范围为 A1 C3 我努力了 var lastCell worksheet Cells get End XlDirection x
if (condition) try {...} 在 C++ 中合法吗？

例如 if true try works as expected with both true and false but is it legal catch 换句话说放置 try 块是否合法紧接在 if 条件之后 a 的语法try块这
使用 while() 和 sleep() 让程序进入睡眠模式的区别

我创建了一个共享对象并从两个不同的程序访问它并测量时间 DATA 数组是两个进程之间的共享对象您没有准确描述如何运行不同版本不同的进程但假设它们是连续的您可能会看到 sleep 的影响当然这取决于具体的实现和硬件但很可能会让您
从 Access 数据库获取数据到 datagridview Vb.Net 时出错

当我单击 datagridview 中的项目以获取更多信息时我遇到问题好的我的代码 Try If DataGridView1 Rows Count 0 Then Return TextBox1 Text String Empty Te
我想要在“drawRect”内进行动画制作，实际上是淡入淡出

有没有办法让drawRect动画化从上一个场景到下一个令人惊讶的是你可以在drawRect中设置动画尝试一下您可以对任何其他属性进行淡入淡出平移或动画处理然而它是从新鲜从空白开始的 DrawRight 是不可见的它发生在
Haste 模块命名冲突：使用 AWS 服务响应本机应用程序（Amplify 项目）

我已经开始使用 React Native 项目之前是使用本机代码我想添加 Amazon Lex 因此请按照链接中的以下步骤操作 https aws amplify github io docs js interactions https
检查 pthread 互斥体是否被锁定或解锁（线程锁定自身之后）

我需要查看 if 语句中互斥体是否被锁定或解锁所以我像这样检查 if mutex id 2 do stuff 但是当我检查 gcc 时出现以下错误 error invalid operands to binary have pthera
如何正确设置树视图行前景色和背景色

我在设置 ttk Treeview 的前景色和背景色时遇到问题我尝试过使用 tag configure 但这似乎也不起作用我有一些模型代码如下我用它来解决这个问题可以更改标题颜色但不能更改行不确定我做错了什么 from tki
Objective c “你忘记嵌套 alloc 和 init 了吗？”

我刚刚开始攀爬 Objective C 学习曲线使用 Nerd Ranch iOS 编程书根据我从其他语言中了解到的有关在一行中嵌套多个执行的信息我认为我可以更改 NSString descriptionString NSStri
返回很大范围内的非重复随机值

我想要一个函数它可以从一组 n 个整数 0 到 n 1 中生成 k 个伪随机值而不重复任何先前的结果 k小于或等于n O n 内存不可接受由于尺寸较大n以及我需要重新洗牌的频率这些是我到目前为止考虑过的方法 Array 通常如果我想
如何在.NET 2.0 ListView 中全选/全选？

在不使用的情况下选择列表视图中的所有项目或不选择任何项目的好方法是什么 foreach ListViewItem item in listView1 Items item Selected true or foreach ListViewI
在 Visual Studio 2017 中的类图中创建聚合和组合

我正在考虑在 Visual Studio 中创建类图我注意到工具箱似乎只允许类之间的关联关系是否可以在类图中创建更强的关系即聚合和组合关系另外是否可以从代码自动创建类图好问题首先 Visual Studio VS 类设计器不是
boost::process 异步 IO 示例不起作用？

以下程序 include
如何在 Eclipse 调试视角中识别线程？

我正在开发一个具有一些线程的 Java 应用程序我在控制台中打印 threadId 例如 17 18 19 等但是当我打开调试透视图时我有这个调试窗口最左上角的窗口它显示当前线程但它们使用 Thread 2 thread 3
强化学习+优化：如何做得更好？

我正在学习如何使用强化学习进行优化我选择的问题是最大匹配 https en wikipedia org wiki Maximum cardinality matching在二分图中因为我可以轻松计算出真正的最优值回想一下图中的匹配是

强化学习+优化：如何做得更好？

强化学习+优化：如何做得更好？ 的相关文章

随机推荐

热门标签

强化学习+优化：如何做得更好？的相关文章