SSD: Single-shot detectors

论文地址:SSD: Single Shot MultiBox Detector

概述

本文提出了一个基于深度神经网络的单步(single shot)目标检测器SSD,其在继承了YOLO单步预测高检测速度的同时,拥有不弱于Faster R-CNN的准确度。

SSD 网络结构

png

从图中可以看出:

  • 不同于YOLOv1和Faster R-CNN,SSD是一个全卷积网络。
  • SSD的预测结果并不完全由最后一层输出,而是由其5个额外特征层(Extra Feature Layers)和 VGG16中的一层的输出综合而来。
  • 由于SSD是个全卷积网络,所以其分类操作也由卷积层进行。上图中横向的直线即是卷积分类器,卷积核大小为3×3,channel数量为anchors×(Classes+4)。此处anchors指anchor的数量;classes为类别数,预测值为每个类置信度,这点应该会给后面的NMS作为评判标准;+4就是(x,y,w,h)。
  • SSD的输出特征图平均每个像素都有一组anchor,整个网络共生成8732个anchor,远多于YOLO和Faster R-CNN。(这里有个问题,根据上面一条,使用3×3卷积核作为滑动窗口是没法做到每个像素都有anchor的,所以此处应该有padding)

2Bng

Hard negative mining

检测结果中,未被选为最终结果的样本都是负样本。这导致负样本数量远大于正样本,样本不均衡。作者采用Hard negative mining的方式,仅选用被误认为是正样本可能性更大的负样本。

其它

论文中还提到了损失函数和anchor的选择,但跟其它的目标检测网络差不多,就不再赘述。

-------------本文结束感谢您的阅读-------------