0. 摘要
Predictor-based Neural Architecture Search (NAS) continues to be an important topic because it aims to mitigate the time-consuming search procedure of traditional NAS methods. A promising performance predictor determines the quality of final searched models in predictor-based NAS methods. Most existing predictor-based methodologies train model-based predictors under a proxy dataset setting, which may suffer from the accuracy decline and the generalization problem, mainly due to their poor abilities to represent spatial topology information of the graph structure data. Besides the poor encoding for spatial topology information, these works did not take advantage of the temporal information such as historical evaluations during training. Thus, we propose a Transformer-based NAS performance predictor, associated with a Laplacian matrix based positional encoding strategy, which better represents topology information and achieves better performance than previous state-of-the-art methods on NAS-Bench-101, NAS-Bench-201, and DARTS search space. Furthermore, we also propose a self-evolution framework that can fully utilize temporal information as guidance. This framework iteratively involves previous evaluation information as constraints into current optimization iteration, thus further improving the performance of our predictor. Such framework is modelagnostic, thus can enhance performance on various backbone structures for the prediction task. Our proposed method helped us rank 2nd among all teams in CVPR 2021 NAS Competition Track 2: Performance Prediction Track.
摘要解读
第一句话点明文章的背景。后面两三句话说明现存方法的问题,然后提出文章的方法,在几个数据集上达到SOTA,然后进一步说明文章提出的提高表现的一个框架。最后说提出的模型在CVPR2021 NAS的性能预测比赛上获得了第二名。
1. Introduction
第一段介绍NAS背景和现存方法的问题,二三段介绍其他方法并提出本文的方法,第四段介绍用Transformer作为predictor的优点,第五段介绍为了进一步提高性能而提出的方法。最后总结了3个本文的贡献:(翻译来自WPS划线翻译)
- 我们提出了一种基于Transformer的NAS性能预测器(TNASP)来更好地编码空间拓扑信息,利用多头自注意机制将离散结构映射到有意义的特征表示,并应用拉普拉斯矩阵的线性变换作为位置编码。
- 通过利用历史中的每个评价得分信息作为训练约束,并应用基于梯度的优化方法迭代求解约束优化问题,我们引入了一个通用的自进化框架,以进一步提高所提预测器的性能,充分利用时间信息。
- 在相同的代理训练数据集下,我们提出的方法超越了以往最先进的方法,并在NAS-Bench-101[48]、NAS-Bench- 201[14]和DARTS[26]搜索空间上取得了最先进的结果。
2. 相关工作
介绍NAS性能预测方法的大致分类分为基于训练的和无需训练的。然后分两段介绍基于训练的预测器和无需训练的预测器的相关工作。
3. 方法
重点记录一下方法。
3.1 Training-based network performance predictors
用一个encoder来将离散的网络结构空间映射到连续的表示,可以用这个下面的式子来表示:
要留意的是那个k的维度,F可以根据具体问题自己定义由多少维度来表示结点的特征。再使用一个回归器(预测器)来评估网络的表现。
使用一个MSE loss 来训练Encoder和Regressor:
3.2 基于Transformer的预测器
如上面的图1所示的那样,Encoder分为两个部分,第一个部分将结点的操作编码矩阵(或向量)经过一个Extractor进行一个变换操作(就是×一个变换矩阵,图中的K只有一列即N×1应该只是作者用于说明,这种情况下每个操作的embedding编码就只有1维。)后得到结点操作的特征矩阵e1.
为了利用位置信息,就使用拉普拉斯矩阵。然后再使用一个线性层去将拉普拉斯矩阵映射到一个连续的空间中,得到拉普拉斯矩阵的连续表示e2。最后将e1和e2一起用一个Transformer得到一个融合的特征矩阵。
3.3 自演化的框架
详细的解释这里就不说了(主要是因为懒得翻译),直接看原文吧。
总之呢,这个自我进化框架可以充分利用任何可用信息(竞争系统历史提交反馈或模型训练期间验证数据集的历史评价信息)来指导预测器训练以避免过拟合,从而在测试数据集上很好地推广。此外,该框架在训练过程中直接将每个历史验证评价信息视为每个硬约束,并将整个约束训练问题重新定义为极大极小优化问题,采用基于梯度的优化方法有效地求解。下面这个图就是这篇文章提出的算法:
4. 实验
实验部分主要是在NAS-Bench-101、NAS-Bench-201以及DARTS搜索空间上做的,这一部分直接看几张图就行了,这几个数据集的介绍就不多做展开了,感兴趣的(如果有人的话)可以自己去找找看。
4.1 NAS-Bench-101
4.2 NAS-Bench-201
4.3 DARTS
4.4 消融实验——不同的位置编码策略
文中比较了不同的位置编码方案。在nas-101[48]。当训练数据大小为100时,邻接选项得到最高的分数,拉普拉斯选项在所有其他情况下获得最高的肯德尔Tau值。因此,我们在实验中选择了拉普拉斯矩阵作为位置编码。有趣的是,标准化拉普拉斯选项的性能比拉普拉斯选项更差。
4.5 消融实验——不同的验证数
文中还研究了在验证数据集上执行的评估数量与最终的肯德尔Tau值之间的关系。如图4所示,当评估数从1增加到10时,我们可以看到肯德尔的Tau值显著增加。然而,当评估的数量继续增长时,肯德尔的Tau值的增加似乎微不足道,但训练时间增加了很多。因此,我们选择在所有实验的自我进化框架中对验证数据集进行10次评估。
5. 结论
在本文中,我们提出了一个基于变压器的NAS性能预测器,并利用拉普拉斯矩阵的线性变换作为位置编码。我们的预测器对空间拓扑信息具有更好的编码能力,从而在几个基准测试上获得了最先进的性能。此外,我们设计了一个足够普遍的自我进化框架,通过充分利用时间信息来进一步改进我们的NAS预测器。不幸的是,我们没有探讨如何将复杂的指标,例如,不可微的指标,作为我们的框架中的约束条件。未来,我们将进一步探讨如何选择更合理有效的约束,稳定有效地改进NAS预测器。
参考文献
TNASP:A Transformer-based NAS Predictor with a Self-evolution Framework , CVPR 2021