虽然人们在训练 CNN 时通常倾向于简单地将任何图像调整为正方形(例如,resnet 采用 224x224 正方形图像),但这对我来说看起来很难看,尤其是当长宽比不在 1 左右时。
(事实上,这可能会改变基本事实,例如,专家可能给扭曲图像的标签可能与原始图像不同)。
所以现在我将图像大小调整为 224x160 ,保持原始比例,然后用 0 填充图像(通过将其粘贴到全黑 224x224 图像中的随机位置)。
我的方法对我来说似乎并不新颖,但我找不到任何有关我的方法与“通常”方法的信息。
时髦!
那么,哪种方法更好呢?为什么? (如果答案取决于数据,请分享您对其中一种方法何时优于另一种方法的想法。)
根据杰里米·霍华德 http://www.fast.ai,填充一大块图像(64x160 像素)将产生以下效果:CNN 必须知道图像的黑色部分不相关,并且无助于区分类别(在分类设置中),如黑色部分中的像素与属于给定类别的像素之间没有相关性。由于您没有对其进行硬编码,因此 CNN 将必须通过梯度下降来学习它,这可能需要一些时间。因此,如果您有大量图像和计算能力,则可以执行此操作,但如果您对其中任何一个图像的预算有限,则调整大小应该效果更好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)