论文提出aging evolution，一个锦标赛选择的变种来优化进化算法，在NASNet搜索空间上，对比强化学习和随机搜索，该算法足够简洁，而且能够更快地搜索到更高质量的模型，论文搜索出的AmoebaNet-A在ImageNet上能达到SOTA
来源：【晓飞的算法工程笔记】公众号

论文: Regularized Evolution for Image Classifier Architecture Search

论文地址：arxiv.org/abs/1802.01…

Introduction

神经网络结构搜索的网络已经能够超越人工设计的网络，但是基于进化算法(evolutionary algorithms)和基因规划(genetic programming)还没有达到人工设计的网络的精度。为此，论文在标准的进化过程基础上进行两个改进：

提出改进锦标赛选择(tournament selection)的进化算法，命名aging evolution或regularized evolution。在锦标赛选择中，表现最好的基因会保留，而新方法将每个基因关联一个年龄，偏向于选择年轻的基因
在NASNet的搜索空间上采用最简单的变异集合进行进化，NasNet的搜索空间用小的有向图来表示卷积神经网络，节点表示隐藏层，带标签的边表示常见的网络操作，变异的规则仅允许随机将边连接到新的节点和修改边的标签

在NASNet空间进行搜索，能够直接地将论文提出的方法和原来的强化学习方法进行对比。论文提出的方法不仅简单，而且搜索速度更快，结果更优，搜索得到的AmoebaNet-A能达到83.9% top-1 error rate

Methods

Search Space

NASNet搜索空间定义的网络架构是固定的，如图1左，通过堆叠单元(cell)来组成网络，每个单元接受前两个单元的输出作为输入，有normal cell和reduction cell，分别主要用于特征提取以及池化。单元的搜索就是定义里面每个块的输入、算子以及合并输出方式，细节可以看NASNet的论文，也可以看我之前的NASNet解读

Evolutionary Algorithm

进化算法始终保持population(种群)的大小为 $P$ 个模型，使用随机网络进行population初始化，然后进行 $C$ 轮进化来优化种群。每轮以均匀的概率随机选取S个模型，将选取的模型中准确率最高的作为parent，然后将parent进行mutation(变异)得到新网络child，在训练和验证后将child加入到history和population的右侧中，最后删除population最左边的模型，算法可以通过分发“ $while |history|$ ”来进行并行计算
需要注意，在锦标赛选择中，通过去掉S-sample中最差的模型来保持最初种群数始终为 $P$ ，这可以认为是non-aging evolution。相反的，论文的新方法每次直接去掉种群中最老的模型，这样能为搜索带来更多的可能性，而非只关注高准确率模型，称为aging evolution
直观的，变异可认为是提供探索，而参数 $S$ 则可以认为是提供榨取(获取最优模型的可能)。不同的参数 $S$ 控制榨取的侵略性， $S=1$ 等于随机搜索， $2\le S\le P$ 则代表不同的贪婪程度

变异有三种形式，每次只能进行一种变异，两种主要的为hidden state mutation和op mutation，另外一种为不变异。hidden state mutation首先选择变异的是normal cell还是reduction cell，然后选择单元的5个block中的一个，最好在block的两个输入中选择一个进行变异，随机选择另外一个单元内的hidden state作为输入，前提不能产生环。op mutation则进行类似的选择，先单元类型，然后block，再选两个操作中的一个进行变异，替换成另一个随机操作

Baseline Algorithms

论文的主要对比算法为强化学习(RL)和随机搜索(RS)

Experimental Setup

在CIFAR-10上进行小模型(N和F都很小)搜索，直到验证了20k模型，之后将搜索到的最优结构应用到full-size的模型中(提高N和F)，然后使用更长的训练时间来获得CIFAR-10和ImageNet上的准确率

Methods Details

op的选择与NASNet有点不同，包含：none (identity); 3x3, 5x5 and 7x7 separable (sep.) convolutions (convs.); 3x3 average (avg.) pool; 3x3 max pool; 3x3 dilated (dil.) sep. conv.; 1x7 then 7x1 conv， $P=100$ ， $S=25$ ，在搜索阶段每个模型训练25 epoch， $N=3/F=24$ ，在450张K40上训练7天，identity mutation的概率固定为0.05，其它的两种概率一致，搜索到的最优20个模型进行最终的训练