神经网络面试题-1

2023-10-29

文章目录

1. 批规范化(Batch Normalization)的好处都有啥？
2. 如果我们用了一个过大的学习速率会发生什么？
3. 下图所示的网络用于训练识别字符H和T，如下所示
4. 增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？
5. 假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的，对吗？
6. 对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，而是都设成0，下面哪个叙述是正确的？
7. 下图显示，当开始训练时，误差一直很高，这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况，我们可以采取下面哪种策略？
8. 对于一个图像识别问题(在一张照片里找出一只猫)，下面哪种神经网络可以更好地解决这个问题？
9. 假设在训练中我们突然遇到了一个问题，在几次循环之后，误差瞬间降低，你认为数据有问题，于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。你打算怎么做来处理这个问题？
10. 在下图中，我们可以观察到误差出现了许多小的"涨落"。这种情况我们应该担心吗？
10. 对于神经网络的说法, 下面正确的是 :
11. 考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？
12. 深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n，n∗p，p∗q，且m < n < p < q，以下计算顺序效率最高的是（）
13. 下列哪个神经网络结构会发生权重共享？
14. 在下面哪种情况下，一阶梯度下降不一定正确工作（可能会卡住）？
- 在这里插入图片描述 ![在这里插入图片描述](https://img-blog.csdnimg.cn/59f5ee64637b4f048c257659d77a1d9b.png) ![在这里插入图片描述](https://img-blog.csdnimg.cn/15e586ab4cf34132ae594637dae0b296.png)

1. 批规范化(Batch Normalization)的好处都有啥？

A. 让每一层的输入的范围都大致固定
B. 它将权重的归一化平均值和标准差
C. 它是一种非常有效的反向传播(BP)方法
D. 这些均不是

正确答案是：A，您的选择是：B
解析：

batch normalization 就是对数据做批规范化，使得数据满足均值为0,方差为1的高斯分布。其主要作用是缓解DNN训练中的梯度消失/爆炸现象，加快模型的训练速度。但是注意是对数据做批规范化，不是对权重。
BN的优点：

极大提升了训练速度，收敛过程大大加快；
增加了分类效果，一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式，所以不用Dropout或正则化也能达到相当的效果；
简化了调参过程，对于初始化参数权重不太敏感，允许使用较大的学习率

2. 如果我们用了一个过大的学习速率会发生什么？

A. 神经网络会收敛
B. 不好说
C. 都不对
D. 神经网络不会收敛

正确答案是：D，您的选择是：B
解析：过大，说明不适合，梯度下降时，梯度会来回震荡，神经网络不会收敛。

3. 下图所示的网络用于训练识别字符H和T，如下所示

在这里插入图片描述

A. 在这里插入图片描述

B. 在这里插入图片描述

C. 在这里插入图片描述

D. 可能是A或B，取决于神经网络的权重设置

正确答案是：D，您的选择是：D
解析：不知道神经网络的权重和偏差是什么，则无法判定它将会给出什么样的输出。

4. 增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？

A. 没听说过
B. 是
C. 否
D. 不知道

正确答案是：C，您的选择是：C

解析：C，增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据集。

5. 假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的，对吗？

A 对的
B 不知道
C 看情况
D 不对

正确答案是：D，您的选择是：D
解析：已经训练好的卷积神经网络, 各个神经元已经精雕细作完工, 对于全白图片的输入, 其层激活输出给最后的全连接层的值几乎不可能恒等, 再经softmax转换之后也不会相等, 所以"输出结果为任何种类的等可能性一样"也就是softmax的每项均相等, 这个概率是极低的。

6. 对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，而是都设成0，下面哪个叙述是正确的？

A 其他选项都不对
B 没啥问题，神经网络会正常开始训练
C 神经网络可以训练，但是所有的神经元最后都会变成识别同样的东西
D 神经网络不会开始训练，因为没有梯度改变

正确答案是：C，您的选择是：D
解析：

令所有权重都初始化为0这个一个听起来还蛮合理的想法也许是一个我们假设中最好的一个假设了, 但结果是错误的，因为如果神经网络计算出来的输出值都一个样，那么反向传播算法计算出来的梯度值一样，并且参数更新值也一样(w=w−α∗dw)。更一般地说，如果权重初始化为同一个值，网络即使是对称的, 最终所有的神经元最后都会变成识别同样的东西。

7. 下图显示，当开始训练时，误差一直很高，这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况，我们可以采取下面哪种策略？

在这里插入图片描述
A 改变学习速率，比如一开始的几个训练周期不断更改学习速率
B 一开始将学习速率减小10倍，然后用动量项(momentum)
C 增加参数数目，这样神经网络就不会卡在局部最优处
D 其他都不对

正确答案是：A，您的选择是：A
解析：选项A可以将陷于局部最小值的神经网络提取出来。

8. 对于一个图像识别问题(在一张照片里找出一只猫)，下面哪种神经网络可以更好地解决这个问题？

A 循环神经网络
B 感知机
C 多层感知机
D 卷积神经网络

正确答案是：D，您的选择是：D
解析：卷积神经网络将更好地适用于图像相关问题，因为考虑到图像附近位置变化的固有性质。

9. 假设在训练中我们突然遇到了一个问题，在几次循环之后，误差瞬间降低，你认为数据有问题，于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。你打算怎么做来处理这个问题？

在这里插入图片描述

A 对数据作归一化
B 对数据取对数变化
C 都不对
D 对数据作主成分分析(PCA)和归一化

正确答案是：D，您的选择是：D
解析：首先您将相关的数据去掉，然后将其置零。具体来说，误差瞬间降低, 一般原因是多个数据样本有强相关性且突然被拟合命中, 或者含有较大方差数据样本突然被拟合命中. 所以对数据作主成分分析(PCA)和归一化能够改善这个问题。

感觉只使用BN就可以了，没必要PCA

10. 在下图中，我们可以观察到误差出现了许多小的"涨落"。这种情况我们应该担心吗？

在这里插入图片描述
A 需要，这也许意味着神经网络的学习速率存在问题
B 不需要，只要在训练集和交叉验证集上有累积的下降就可以了
C 不知道
D 不好说

正确答案是：B，您的选择是：B
解析：选项B是正确的，为了减少这些“起伏”，可以尝试增加批尺寸(batch size)。具体来说，在曲线整体趋势为下降时, 为了减少这些“起伏”，可以尝试增加批尺寸(batch size)以缩小batch综合梯度方向摆动范围. 当整体曲线趋势为平缓时出现可观的“起伏”, 可以尝试降低学习率以进一步收敛. “起伏”不可观时应该提前终止训练以免过拟合

我的理解是网络在使用某一batch进行梯度更新时，该batch内的数据与其他数据偏差较大，导致梯度更新时的方向错了。最终导致该epoch中的数据都被带偏了，所以该epoch下Error率升高了。

10. 对于神经网络的说法, 下面正确的是 :

增加神经网络层数, 可能会增加测试数据集的分类错误率
减少神经网络层数, 总是能减小测试数据集的分类错误率
增加神经网络层数, 总是能减小训练数据集的分类错误率

A 1
B 1 和 3
C 1 和 2
D 2

正确答案是：A，您的选择是：A
解析：深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型泛化能力, 即, 训练数据集和测试数据集都表现得更好. 但更多的层数, 也不一定能保证有更好的表现（https://arxiv.org/pdf/1512.03385v1.pdf）. 所以, 不能绝对地说层数多的好坏, 只能选A

理论上层数越多模型的表示能力越强，但当层数超出数据集的范围后，会导致过拟合。

11. 考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？

A 把除了最后一层外所有的层都冻结，重新训练最后一层
B 对新数据重新训练整个模型
C 只对最后几层进行调参(fine tune)
D 对每一层模型进行评估，选择其中的少数来用

正确答案是：C
解析：如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化.

若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可; -> 迁移学习
但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)。 -> fine tuning

12. 深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n，n∗p，p∗q，且m < n < p < q，以下计算顺序效率最高的是（）

A. (AB)C
B. AC(B)
C. A(BC)
D. 所以效率都相同

正确答案是：A

解析：

首先，根据简单的矩阵知识，因为 A*B ， A 的列数必须和 B 的行数相等。因此，可以排除 B 选项
然后，再看 A 、 C 选项。在 A 选项中，m∗n 的矩阵 A 和n∗p的矩阵 B 的乘积，得到 m∗p的矩阵 A*B ，而 A∗B的每个元素需要 n 次乘法和 n-1 次加法，忽略加法，共需要 m∗n∗p次乘法运算。
同样情况分析 A*B 之后再乘以 C 时的情况，共需要 m∗p∗q次乘法运算
因此， A 选项 (AB)C 需要的乘法次数是 m∗n∗p+m∗p∗q 。
同理分析， C 选项 A (BC) 需要的乘法次数是 n∗p∗q+m∗n∗q。

13. 下列哪个神经网络结构会发生权重共享？

A 卷积神经网络
B 循环神经网络
C 全连接神经网络
D 选项A和B

正确答案是：D
解析：CNN卷积核卷积计算时可以重复用。 RNN序列的每个时间步的参数都是共享的。

14. 在下面哪种情况下，一阶梯度下降不一定正确工作（可能会卡住）？

正确答案是：B
解析：这是鞍点（Saddle Point）的梯度下降的经典例子。另，本题来源于：https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面试题（Interview Questions）

cnn