Learning to Navigate in Cities Without a Map 理解

2023-10-27

  • 问题定义
    在真实世界中进行无定位辅助,类似于人直觉长距离导航。输入为当前的视觉输入和目标地点。输出就是接下来应该怎么走,才能到达目的地。PS:Navigation相比于planning来说更加粗糙,就是不需要具体到某个地点,而是一个大概的方向确定。
  • 问题解决
    使用DRL,定义状态:当前视觉输入;定义动作:五个离散动作,快慢向前,这个应该是由Google Map采集地图的摄像头确定的;奖励:最开始的是由当前agent的位置到目标距离的最短路径决定,成比例的,应该是距离越远,给的reward越小;另外走的步数会给予更高的奖励(我觉得走的步数越多,给予的奖励应该是更多加个负号,比较DRL的目标是最大化reward,步数越多可不是好事情,比如一直围绕某个建筑物,步数非常多,这不是我们希望看到的优化结果)输入的目标定义,这个定义的方法有很多,比如给GPS位置,给定目的地周围的视觉形态,这篇论文是使用周围五个最近的landmark确定的,landmark是确定的,任何一个地点周围五个landmark也是确定的,所以使用这种方法,是对目的地进行了一种编码表示,数据压缩吧。这个逼我给满分~
    policy:P(a|s,g) 给定当前输入的图片和目的地的状态表示,接下来的动作;
    value function:E(s,g) 在该状态下,已知目的地,它的期待奖励,这个东西是为了指导policy那块的network更快收敛的。
  • 训练心得
    Deepmind的paper就是看上去很高大上,然后更多是提出问题,给出benchmark,自己复现吧。当然,考虑到需要的计算量和实用性,更多小伙伴应该就是看看它训练的时候网络和技巧,定义DRL怎么做的,很少会去复现这些东西。
    迁移能力:
    使用子网络,来实现迁移学习。
    在这里插入图片描述
    加速收敛:
    使用子任务提供更多约束
    训练网络使用IMPALA和A3C都可以。

Ref:
https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/
https://papers.nips.cc/paper/7509-learning-to-navigate-in-cities-without-a-map.pdf

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Learning to Navigate in Cities Without a Map 理解 的相关文章

随机推荐

  • AXI Uartlite IP AXI驱动代码

    说明 AXI Uartlite IP AXI驱动代码 根据博客 Xilinx AXI Uartlite IP核的使用 有问题联系微信 Crazzy M 效果简单展示 module uart parameter UART REG NUM 2
  • CAP 可能是CAP理论的最好解释

    一篇非常精彩的解释CAP理论的文章 翻译水平有限 不准确之处请参考原文 还请见谅 Chapter 1 Remembrance Inc Your new venture Last night when your spouse apprecia
  • centos7 监控文件内容变化打印

    tail命令可以输出文件末尾的内容 至于输出多少看你指定多少 最少是10行 使用 一下命令可以伴随文件内容的增长实时的查看文件内容的变化 tail f file name
  • Springboot + MySQL+ JPA Ⅰ 项目新建

    最近在学习JPA的 在此跟大家分享一下 持续更新中 开发工具IDEA 一 new project 选择 Spring Initializr Next 二 自定义项目名 我这边时smjdemo 三 选择需要依赖的包 Lombok 本人喜欢用
  • 使用代理服务获取网页源代码测试

    import requests url 输入测试访问网址 headers User Agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KHTML like Geck
  • 一键开启mysql的审计功能(无需安装插件)

    本文所使用数据库为mysql8 0 5 x版本的mysql上没试过一下步骤调用审计功能 无需下载任何插件 两行命令就能搞定 一 首先查看审计配置情况 show global variables like log timestamps sho
  • Spring Boot 笔记 - 注解(四)-- @SpringBootApplication

    Many Spring Boot developers like their apps to use auto configuration component scan and be able to define extra configu
  • 二、Java代码实现冒泡排序

    冒泡排序描述 关键 相邻的两个元素进行比较 依次比较数组中相邻两个元素大小 若 a j gt a j 1 则交换两个元素 两两都比较一遍 就是一轮冒泡 结果是一轮冒泡后最大的元素排到了最后 重复以上的步骤 直到整个数组有序就行了 冒泡的优化
  • 字典序算法详解

    一 字典序 字典序 就是按照字典中出现的先后顺序进行排序 1 单个字符 在计算机中 25个字母以及数字字符 字典排序如下 0 lt 1 lt 2 lt lt 9 lt a lt b lt lt z 比如在 python 中 0 lt 9 l
  • R语言初学者必备的10个实用函数

    R语言初学者必备的10个实用函数 R语言是一种流行的数据分析和统计建模工具 它提供了丰富的函数和库来处理和分析数据 对于初学者来说 掌握一些常用的实用函数将使他们更加高效地使用R语言进行数据处理和可视化 本文将介绍10个初学者必备的实用函数
  • CPU上下文切换

    文章目录 CPU上下文切换 什么是CPU上下文 进程上下文切换 特权模式切换 进程上下文切换与系统调用的区别 什么时候会切换进程上下文 线程上下文切换 中断上下文切换 监控上下文切换 vmstat pidstat 减少上下文切换 CPU上下
  • 生命在于学习——网站Getshell的方法

    PS 本篇文章仅用于学习笔记记录 不可用于其他用途 一 通用getshell方法 1 任意文件上传 1 注意编程语言 asp aspx php jsp 2 上传成功 但是访问直接下载文件 以文本展示 原因 文件没有被解析 3 上传成功 蚁剑
  • Burp Suite软件常用模块

    目录 1 Proxy 代理模块 2 Repeater模块 请求重放 3 Intruder模块 入侵自动化攻击 Intruder的4种攻击模式 1 Sniper模式 狙击手模式 2 Battering ram模式 攻城锤模式
  • 解决HC05蓝牙模块主从配对失败及AT模式设置方案

    解决HC05蓝牙模块主从配对失败及AT模式设置方案 原创文章 转载请注明 本文为电脑端配置 关于连线 关于串口调试工具 关于AT指令与蓝牙模块配对 关于测试验证 原创文章 转载请注明 本文为电脑端配置 最近在做一个开源的Vorpal Hex
  • HBase拆分策略

    转载自 http blog javachen com 2014 01 16 hbase region split policy html Region 概念 Region是表获取和分布的基本元素 由每个列族的一个Store组成 对象层级图如
  • 图像相关算法整理

    图像相关算法整理 1 HE算法 灰度直方图均衡算法 原理 将原始图像的灰度直方图从比较集中地某个灰度区间变成全部灰度范围内的均匀分布 步骤 1 遍历每一帧图像中的所有像素 记录每个灰度值出现的像素个数 2 统计每个灰度值占总像素的百分比 即
  • C语言占位符 格式占位符

    常用占位符 d i 代表整数 f 浮点数 s 字符串 c char p 指针 fL 长log e 科学计数法 g 小数或科学计数法 C语言中的格式占位符 a A 读入一个浮点值 仅C99有效 c 读入一个字符 d 读入十进制整数 i 读入十
  • Dev-C++使用教程,将你编写第一个C语言代码,实现输出Hello world

    安装好Dev C 软件 方法 步骤 1 打开安装好的Dev C 软件 初始界面如下 2 然后选择左上角文件 依次选择新建 gt 源代码 或者使用快捷键ctrl n 新建一个项目 就可以编写代码了 3 这里以输出Hello world 为例
  • java基础

    java命名规范 驼峰命名 见名知意 1 项目名全部小写 2 包名全部小写 以域名开头 3 类名首字母大写 如果类名由多个单词组成 每个单词的首字母都要大写 如 public class MyFirstClass 4 变量名 方法名首字母小
  • Learning to Navigate in Cities Without a Map 理解

    问题定义 在真实世界中进行无定位辅助 类似于人直觉长距离导航 输入为当前的视觉输入和目标地点 输出就是接下来应该怎么走 才能到达目的地 PS Navigation相比于planning来说更加粗糙 就是不需要具体到某个地点 而是一个大概的方