Caffe可以直接对图像的像素进行分类吗？

2023-11-22

我想将图像的像素分类为“是街道”或“不是街道”。我有一些训练数据KITTI数据集我看到 Caffe 有一个IMAGE_DATA图层类型。标签以与输入图像大小相同的图像形式存在。

除了 Caffe 之外，我解决这个问题的第一个想法是在应该分类的像素周围提供图像补丁（例如，上/左/右/下 20 个像素，导致我想要分类的每个像素有 41×41=1681 个特征）。
但是，如果我可以告诉 caffe 如何使用标签，而不必手动创建这些图像补丁（以及图层类型IMAGE_DATA似乎表明这是可能的）我更喜欢这样。

Caffe可以直接对图像的像素进行分类吗？这样的 prototxt 网络定义会是什么样子？如何向 Caffe 提供有关标签的信息？

我猜输入层会是这样的

layers {
  name: "data"
  type: IMAGE_DATA
  top: "data"
  top: "label"
  image_data_param {
    source: "path/to/file_list.txt"
    mean_file: "path/to/imagenet_mean.binaryproto"
    batch_size: 4
    crop_size: 41
    mirror: false
    new_height: 256
    new_width: 256
  }
}

但是，我不确定什么crop_size确切的意思是。真的是居中吗？ caffe如何处理角点像素？什么是new_height and new_width适合什么？

Caffe可以对像素进行分类吗？理论上我认为答案是肯定的。我自己没有尝试过，但我认为没有什么可以阻止你这样做。

Inputs:
你需要两个IMAGE_DATA层：一层加载 RGB 图像，另一层加载相应的标签掩模图像。请注意，如果您使用convert_imageset实用程序中，您无法独立地对每个集合进行洗牌 - 您将无法将图像与其标签蒙版相匹配。

An IMAGE_DATA图层有两个“顶部”，一个用于“数据”，一个用于“标签”我建议您将两个输入层的“标签”设置为图像/标签蒙版的索引，并添加一个实用程序层来验证索引always匹配，这将防止您在错误的标签掩码上进行训练；）

Example:

layer {
  name: "data"
  type: "ImageData"
  top: "data"
  top: "data-idx"
  # paramters...
}
layer {
  name: "label-mask"
  type: "ImageData"
  top: "label-mask"
  top: "label-idx"
  # paramters...
}
layer {
  name: "assert-idx"
  type: "EuclideanLoss"
  bottom: "data-idx"
  bottom: "label-idx"
  top: "this-must-always-be-zero"
}

损失层：
现在，您可以对输入数据执行任何您喜欢的操作，但最终要获得逐像素标记，您需要逐像素损失。因此，您必须让最后一层（损失之前）产生一个预测same宽度和高度为"label-mask"并非所有损失层都知道如何处理多个标签，但是"EuclideanLoss"（例如）可以，因此你应该有一个损失层，例如

layer {
  name: "loss"
  type: "EuclideanLoss"
  bottom: "prediction" # size on image
  bottom: "label-mask"
  top: "loss"
}

I think "SoftmaxWithLoss"有一个较新的版本可以在这种情况下使用，但您必须自己检查。在这种情况下"prediction"形状应为 2×h×w（因为您有 2 个标签）。

补充笔记：
一旦你在参数中设置了输入大小"ImageData"您可以修复网络中所有斑点的大小。您必须将标签尺寸设置为相同尺寸。您必须仔细考虑如何处理不同形状和大小的图像。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Caffe可以直接对图像的像素进行分类吗？的相关文章

如何使用 Elements 将持卡人姓名添加到 Stripe 结帐？

我需要在自定义表单中添加一个附加字段我想添加信用卡的名称我尝试了以下方式 var cardNameElement elements create cardName style style placeholder Custom card
如何使用 std::string 将所有出现的一个字符替换为两个字符？

有没有一种简单的方法来替换所有出现的 in a std string with 转义 a 中的所有斜杠std string 完成此操作的最简单方法可能是boost字符串算法库 http www boost org doc libs 1 46
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
根据 GLSL 中向量的特定分量执行最小-最大的最快方法？

我需要在我的 GLSL 代码中多次调用这种函数 vec2 minx vec2 a vec2 b if a x lt b x return a else return b 我担心过度分支有没有办法避免 if else 结构我建议使用 GL
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere
C 中的异或运算符

在进行按位操作时我在确定何时使用 XOR 运算符时遇到一些困难按位与和或非常简单当您想要屏蔽位时请使用按位 AND 常见用例是 IP 寻址和子网掩码当您想要打开位时请使用包含或然而 XOR 总是让我明白我觉得如果在面试中被问
如何在不声明新数据的情况下更改类型（String，Int）元组的 Ord 实例？

我正在尝试对类型列表进行排序 String Int 默认情况下它按字符串排序然后按整数排序如果字符串相等我希望它是相反的首先比较整数然后如果相等则比较字符串另外我不想切换到 Int String 我找到了一种通过定义实例来实
如何在 C++ BOOST 中像图形一样加载 TIFF 图像

我想要加载一个 tiff 图像带有带有浮点值的像素的 GEOTIFF 例如 boost C 中的图形我是 C 的新手我的目标是使用从源 A 到目标 B 的双向 Dijkstra 来获得更高的性能 Boost GIL load tiif
限制C#中的并行线程数

我正在编写一个 C 程序来生成并通过 FTP 上传 50 万个文件我想并行处理4个文件因为机器有4个核心文件生成需要更长的时间是否可以将以下 Powershell 示例转换为 C 或者是否有更好的框架例如 C 中的 Actor 框
如何在 Jquery/Javascript 中绑定模糊和更改，但只触发一次函数？

我试图在选择元素更改时触发函数由于 Ipad 在 on change 方面遇到问题我还想绑定到 blur 这在 Ipad 上工作得很好但是我不希望两个事件都触发该函数两次所以我需要某种挂钩来确保两个事件是否都触发change and
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
jolt变换后json对象的排序

Input The input json object 所需输出 Event1 Value1 Event2 collection of json objects Event3 The input json object 所以基本上输入 js
AWS DynamoDB 写后读一致性 - 理论上它是如何工作的？

大多数nosql解决方案仅使用最终一致性并且考虑到DynamoDB将数据复制到三个数据中心如何保持写后读一致性解决此类问题的通用方法是什么我认为这很有趣因为即使在 MySQL 复制中数据也是异步复制的我将详细告诉您 Dynam
张量流中的复杂卷积

我正在尝试运行一个简单的卷积但包含复数 r np random random 1 10 10 10 i np random random 1 10 10 10 x tf complex r i conv layer tf layers c
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
如何在 PHP 中从字符串类名实例化？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案如何创建返回方法名称的新实例不幸的是我收到这个错误错误类名必须是有效的对象或字符串这是我的代码 class Foo public f
Git 提交失败：“请使用 -m 或 -F 选项提供消息。”

当我键入 git commit 命令来提交文件时我收到以下错误消息 Microsoft Visual Studio 微软找不到命令错误核心编辑器 Microsoft Visual Studio 存在问题请使用 m 或 F 选项提供
使用 libcurl 检查 SFTP 站点上是否存在文件

我使用 C 和 libcurl 进行 SFTP FTPS 传输在上传文件之前我需要检查文件是否存在而不实际下载它如果该文件不存在我会遇到以下问题 set up curlhandle for the public private ke
使用按位运算符相乘

我想知道如何使用按位运算符将一系列二进制位相乘但是我有兴趣这样做来查找二进制值的十进制小数值这是我正在尝试做的一个例子假设 1010010 我想使用每个单独的位以便将其计算为 1 2 1 0 2 2 1 2 3 0 2 4 虽然我
两种情况或 if 哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须制作一个非常轻的脚本它将接受用户的选项并调用脚本中的函数来执行一些任务现在我可以使用 IF 和 CASE 选项但我想知道两

随机推荐

Make +y UP，移动原点 C# System.Drawing.Graphics

我希望原点位于窗口的中心 o gt NET 希望它位于左上角 gt V 点网和我正在努力相处有谁知道如何在 C 中仅使用 Graphics 对象来做到这一点 Graphics TranslateTransform 不会执行此操作因为它会
使用 Axis2 附加客户端证书？

是否可以轻松地将客户端证书附加到使用 wsdl2java 生成的 Axis2 存根我需要根据每个请求动态更改客户端证书因此简单地将其存储在密钥库中不适用于我们的情况我找到了针对非 SOAP 调用执行此操作的示例但找不到与使用 Axi
来自 AJAX 调用的 res.redirect

我正在尝试在 ajax 之后进行重定向put要求我计划使用纯 JS 客户端进行验证 Client document ready function login gt var username name username val var pa
在Eclipse中，是否可以找到项目中采用某种参数类型的所有方法？

这基本上就是我的问题我正在参数化方法中将所有方法 ArrayList 转换为 HashMap 但我不想将所有 ArrayList 转换为 HashMap 因为有一些方法是在本地使用的这更多的是出于好奇但它会很有用那么在 Eclip
带有图像

我将 JSF 与 Primefaces 一起使用我想使用仅包含图像的单选按钮按钮集但我无法使其工作这是代码
我应该将 Maven 项目的应用程序配置文件放在哪里？

我正在使用Maven 应用程序组装器用于从我的 Java 项目生成独立可执行文件的插件应用程序读取配置文件包括 Spring 文件应用程序汇编器插件有一个选项默认激活可以将 etc 目录添加到应用程序的类路径中但是我应该怎么做才
来自类的 Java 资源与线程

有什么区别 getClass getResource some resource file txt vs Thread currentThread getContextClassLoader getResource some resourc
如何在 OpenCV 中找到二值骨架图像的端点？

我有一个二进制像素的骨架如下所示我想找到该骨架端点的坐标在本例中有四个如果适用请使用 Open CV 效率很重要因为我正在从视频源中实时分析其中的许多内容并且需要同时做许多其他事情请注意抱歉上面的屏幕截图已调整了人工制品
ggplot2：将各个facet_wrap面保存为单独的绘图对象

我是以下的忠实粉丝facet wrap 尽管在 R 中分割大数据框绘制多个图并进行探索的速度很快但它并不总是在纸张或幻灯片中呈现的最佳工具我发现自己在比例 binwidths 和字体大小上浪费了很多时间并最终在 inkscape 上
C# 创建没有的 XML 输出文件

我是 C 开发新手所以这里可能是一个非常简单的问题我试图获得这样的输出
自定义 pip install 命令未运行

我正在尝试为我正在编写的 pip 库运行一些预安装命令我的安装文件如下所示 from setuptools import setup from setuptools command install import install class
如何对 __m128 类型变量中的浮点元素取反（更改符号）？

是否有任何单个指令或函数可以反转符号 m128 内的每个浮点数 IE a r0 r1 r2 r3 gt a r0 r1 r2 r3 我知道这可以通过 mm sub ps mm set1 ps 0 0 a 但它不是可能很慢吗 mm set1
在WPF网格中绘制对角线

我想我正在尝试在 WPF 中做一些相对简单的事情但我无法弄清楚如何做我认为我可能正处于将其过于复杂化的边缘如果我有一个 3 行 3 列的网格并且我想连接两个单元格的角以创建对角边框那么最好的方法是什么理想情况下如果调整控件的大
在 Angular 8 中，如何从浏览器控制台访问注入的服务？

我正在使用 Angular 8 我想从浏览器控制台 Chrome 开发工具访问注入的服务我可以像这样从浏览器控制台访问注入器 ng probe document querySelector app root injector 我想在开发
声音文件作为 android MediaPlayer 中的变量

在学习 android java 的过程中我想创建一个可以从原始文件夹中播放特定声音的函数我试图将声音文件定义为字符串以便可以重用该函数但是我陷入了无法解析符号的困境 public class MainActivity exte
与共享主键的一对一关系生成 n+1 个选择；有什么解决方法吗？

想象一下关系数据库中有 2 个表例如人员和计费这些实体之间定义了一个非强制性 OneToOne 关联并且它们共享 Person 主键即 PERSON ID 在 Person 和 Billing 中定义并且它是后者的外键通过命名
Java Socket和ServerSocket在使用端口上的区别

在服务器端我们使用 Socket server serverSocket accept 创建一个套接字创建套接字后我们可以创建一个新线程来处理该套接字的输入输出流因此如果有进一步的连接请求进来我们可以返回监听同一端口并创建新的
这超出了 GitHub 的文件大小限制 [重复]

这个问题在这里已经有答案了我的 github 存储库中有一些大文件我尝试添加提交推送但推送命令给出了以下错误远程错误文件 app dump sql 为 106 67 MB 这超出了 GitHub 的文件大小限制 100 00
创建交互式登录会话

我正在尝试创建一个类似于微软废弃的实用程序超快速用户切换器 download 它允许快速用户切换而无需通过欢迎屏幕我有一个使用未记录的工作实现WinStationConnectWAPI 以及WTSEnumerateSessions 但只
Caffe可以直接对图像的像素进行分类吗？

我想将图像的像素分类为是街道或不是街道我有一些训练数据KITTI数据集我看到 Caffe 有一个IMAGE DATA图层类型标签以与输入图像大小相同的图像形式存在除了 Caffe 之外我解决这个问题的第一个想法是在应该分类的像

Caffe可以直接对图像的像素进行分类吗？

Caffe可以直接对图像的像素进行分类吗？ 的相关文章

随机推荐

热门标签

Caffe可以直接对图像的像素进行分类吗？的相关文章