概述

本文提出了一个基于深度神经网络的单步(single shot)目标检测器SSD，其在继承了YOLO单步预测高检测速度的同时，拥有不弱于Faster R-CNN的准确度。

SSD 网络结构

png

从图中可以看出：

不同于YOLOv1和Faster R-CNN，SSD是一个全卷积网络。
SSD的预测结果并不完全由最后一层输出，而是由其5个额外特征层(Extra Feature Layers)和 VGG16中的一层的输出综合而来。
由于SSD是个全卷积网络，所以其分类操作也由卷积层进行。上图中横向的直线即是卷积分类器，卷积核大小为3×3，channel数量为anchors×(Classes+4)。此处anchors指anchor的数量；classes为类别数，预测值为每个类置信度，这点应该会给后面的NMS作为评判标准；+4就是(x,y,w,h)。
SSD的输出特征图平均每个像素都有一组anchor，整个网络共生成8732个anchor，远多于YOLO和Faster R-CNN。（这里有个问题，根据上面一条，使用3×3卷积核作为滑动窗口是没法做到每个像素都有anchor的，所以此处应该有padding）

2Bng

检测结果中，未被选为最终结果的样本都是负样本。这导致负样本数量远大于正样本，样本不均衡。作者采用Hard negative mining的方式，仅选用被误认为是正样本可能性更大的负样本。

论文中还提到了损失函数和anchor的选择，但跟其它的目标检测网络差不多，就不再赘述。