我已经浏览了很多关于 CNN 通常处理多个通道(例如 RGB 图像中的 3 个)的方式的解释,但我仍然不知所措。
当将 5x5x3 滤镜(例如)应用于 RGB 图像的补丁时会发生什么exactly发生?实际上是每个通道分别发生 3 个不同的 2D 卷积(具有独立的权重)吗?然后将结果简单地加在一起以产生最终输出并传递到下一层?或者说它是真正的 3D 卷积?
该图片来自 Andrew Ng 的 deeplearning.ai 课程。 6 X 6 X 3 - 其中 3 对应 3 个颜色通道。
6 X 6 是图像的高度和宽度。
对于卷积步骤,我们将输入图像与 3 X 3 X 3 滤波器/内核进行卷积。输入图像和过滤器都有 3 层。 (大多数情况下,输入图像和过滤器都是相同的)。输出将为 4 X 4 X 1。
3 X 3 X 3 为您提供 27 个特征/参数,您可以将它们与相应的红色、绿色和蓝色通道相乘。最后将所有这些数字相加即可得到 4 X 4 输出图像中 [0,0] 的值。现在移动输入图像的黄色立方体并将其滑过右侧的 1 个框,一旦到达右端,您将立方体向下滑动一行并继续乘法以填充 4 X 4 输出。建议您拿一张纸和铅笔,在所有输入的立方体以及内核中填充随机值并求解乘法。
有关更多详细信息,请观看 YouTube 上的这些讲座。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)