论文地址:SSD: Single Shot MultiBox Detector
概述
本文提出了一个基于深度神经网络的单步(single shot)目标检测器SSD,其在继承了YOLO单步预测高检测速度的同时,拥有不弱于Faster R-CNN的准确度。
SSD 网络结构
从图中可以看出:
- 不同于YOLOv1和Faster R-CNN,SSD是一个全卷积网络。
- SSD的预测结果并不完全由最后一层输出,而是由其5个额外特征层(Extra Feature Layers)和 VGG16中的一层的输出综合而来。
- 由于SSD是个全卷积网络,所以其分类操作也由卷积层进行。上图中横向的直线即是卷积分类器,卷积核大小为3×3,channel数量为anchors×(Classes+4)。此处anchors指anchor的数量;classes为类别数,预测值为每个类置信度,这点应该会给后面的NMS作为评判标准;+4就是(x,y,w,h)。
- SSD的输出特征图平均每个像素都有一组anchor,整个网络共生成8732个anchor,远多于YOLO和Faster R-CNN。(这里有个问题,根据上面一条,使用3×3卷积核作为滑动窗口是没法做到每个像素都有anchor的,所以此处应该有padding)
Hard negative mining
检测结果中,未被选为最终结果的样本都是负样本。这导致负样本数量远大于正样本,样本不均衡。作者采用Hard negative mining的方式,仅选用被误认为是正样本可能性更大的负样本。
其它
论文中还提到了损失函数和anchor的选择,但跟其它的目标检测网络差不多,就不再赘述。