Computer Vision Reading Group

7月 18, 2017

A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

paper

一、论文思想

训练一个目标检测器,对遮挡和形变鲁棒,目前的主要方法是增加不同场景下的图像数据,但这些数据有时又特别少。作者提出使用对抗生成有遮挡或形变的样本,这些样本对检测器来说识别比较困难,使用这些困难的正样本训练可以增加检测器的鲁棒性。 使用对抗网络生成有遮挡和有形变的两种特征,分别对应网络ASDN和ASTN。使用对抗网络生成有遮挡和有形变的两种特征,分别对应网络ASDN和ASTN。

1.ASDN

  • FAST-RCNN中RoI-池化层之后的每个目标proposal卷积特征作为对抗网络的输入,给定一个目标的特征,ASDN尝试生成特征某些部分被dropout的掩码,导致检测器无法识别该物体。
  • ASDN网络初始化: 给定尺寸大小为d×d的特征图X,使用d3×d3的滑动窗,并将滑动窗位置映射到原图,将原图对应位置清零,生成新的特征向量,传入到分类层计算损失,选择具有最大损失的滑动窗,用这个窗口生成二值掩码M(滑动窗位置为1,其余位置为0),用n个目标proposal生成n对对抗网络的训练样本(x1,M1),...,(xn,Mn) ,使用二值交叉熵损失训练ASDN:

cross_extropy

  • 在前向传播过程中,首先使用ASDN在RoI-池化层之后生成特征掩码,然后使用重要性采样法生成二值掩码,使用该掩码将特征对应部位值清零,修改后的特征继续前向传播计算损失。这个过程生成了困难的特征,用于训练检测器。训练过程流程图如下所示:

ASDN

2.ASTN

  • STN网络包含三部分:定位网络,网格生成器,采样器。定位网络估计出形变的参数(旋转角度、平移距离和缩放因子)。这三个参数作为后两部分的输入,输出是形变后的特征图。论文主要学习定位网络的三个参数。
  • ASTN: 主要关注特征旋转,定位网络包含三层全连接层,前两层是ImageNet预训练的fc6和fc7,训练过程与ASDN类似,ASTN对特征进行形变,使得ASTN将正样本识别成负样本。将特征图划分为4个block,每个block估计四个方向的旋转,增加了任务的复杂度。
  • 两种对抗网络可以相结合,使得检测器更鲁棒,RoI-池化层提取的特征首先传入ASDN丢弃一些激活,之后使用ASTN对特征进行形变,如下图所示: ASTNandASDN
  • ASDN 与 ASTN 网络组合架构示意。首先创建遮挡蒙版,随后旋转路径以产生用于训练的例子。

二、训练

stage1:training a standard Fast-RCNN

./experiments/scripts/fast_rcnn_std.sh  [GPU_ID]  VGG16 pascal_voc

stage2:pre-training stage for the adversarial network

./experiments/scripts/fast_rcnn_adv_pretrain.sh  [GPU_ID]  VGG16 pascal_voc

stage3:copy the weights of the above two models to initialize the joint model

./copy_model.h

stage4: joint training of the detector and the adversarial network

./experiments/scripts/fast_rcnn_adv.sh  [GPU_ID]  VGG16 pascal_voc

三、代码解析

1.sigmod交叉熵

  • 交叉熵化简:
    交叉熵化简
    交叉熵化简
  • 进一步可化简为:
    交叉熵化简
    交叉熵化简
  • 对应本文中的代码是: adversarial-frcnn/lib/roi_data_layer/layer.py
    代码1
  • 代码解析:
1.注意绝对值使用的巧妙之处:

** lZ = np.log(1+np.exp(-np.abs(f))) * mask Lz对应化简公式的第二项,其中e的指数项x在两种情况下,均为非正,可以概括为代码中np.exp(-np.abs(f))

2.注意判断语句使用的巧妙之处:

* ((f>0)-t)f * mask该项对应化简公式的第一项,对应caffe源码为:
代码2

四、参考链接

  • caffe网络可视化工具:http://ethereon.github.io/netscope/#/editor
  • 交叉熵公式推导:http://caffecn.cn/?/question/25
  • 交叉熵公式说明:http://blog.csdn.net/u014114990/article/details/47975739
  • 论文代码:https://github.com/xiaolonw/adversarial-frcnn

关于作者 Edited by fangfang xiuhong