目标检测中准确率评价指标_目标检测overlap-程序员宅基地

技术标签: 深度学习  

caffe中实现SSD准确率评价方法是TestDetection()函数。mAp指标值是每个类别的Average precision的平均值。

本文分析DetectionEvaluateLayer中实现评价的过程及其评价指标。需要指出的是,一般的前向过程是不包含DetectionEvaluateLayer层的定义的,只有在训练的评价(TEST)过程中才会使用到该layer。具体使用该层时,需要在prototxt文件中把下述定义写到DetectionOutput的定义之后。

layer {
  name: "detection_eval"
  type: "DetectionEvaluate"
  bottom: "detection_out"
  bottom: "label"
  top: "detection_eval"
  include {
    phase: TEST
  }
  detection_evaluate_param {
    num_classes: 11
    background_label_id: 0
    overlap_threshold: 0.5
    evaluate_difficult_gt: false
  }
}

在计算Average Precision之前需要先计算出所有预测框与gt_bboxes的匹配。

SSD evaluation  layer以detection_output layer的输出([image_id, label, confidence, xmin, ymin, xmax, ymax])作为输入,同时输出 [image_id, label, confidence, true_pos, false_pos]元组。

具体操作为:1)遍历每个类别;2)将该类别的预测框按confidence降序排列;3)对于每个pred_bbox,找出与其有最大iou的gt_bbox;4)如果该gt_bbox之前没有被分配且iou大于给定的阈值(比如0.5),那将该gt_bbox分配该给pred_bbox,设置该pred_bbox为true positive;否则设置该pred_bbox为false positive.

//from code:caffe-ssd/src/caffe/layers/detection_evaluate_layer.cpp
//function: DetectionEvaluateLayer<Dtype>::Forward_cpu

      for (LabelBBox::iterator iit = detections.begin();
           iit != detections.end(); ++iit) {
        int label = iit->first;
        if (label == -1) {
          continue;
        }
        vector<NormalizedBBox>& bboxes = iit->second;
        if (label_bboxes.find(label) == label_bboxes.end()) {
          // No ground truth for current label. All detections become false_pos.
          for (int i = 0; i < bboxes.size(); ++i) {
            top_data[num_det * 5] = image_id;
            top_data[num_det * 5 + 1] = label;
            top_data[num_det * 5 + 2] = bboxes[i].score();
            top_data[num_det * 5 + 3] = 0;
            top_data[num_det * 5 + 4] = 1;
            ++num_det;
          }
        } else {
          vector<NormalizedBBox>& gt_bboxes = label_bboxes.find(label)->second;
          // Scale ground truth if needed.
          if (!use_normalized_bbox_) {
            CHECK_LT(count_, sizes_.size());
            for (int i = 0; i < gt_bboxes.size(); ++i) {
              OutputBBox(gt_bboxes[i], sizes_[count_], has_resize_,
                         resize_param_, &(gt_bboxes[i]));
            }
          }
          vector<bool> visited(gt_bboxes.size(), false);
          // Sort detections in descend order based on scores.
          std::sort(bboxes.begin(), bboxes.end(), SortBBoxDescend);
          for (int i = 0; i < bboxes.size(); ++i) {
            top_data[num_det * 5] = image_id;
            top_data[num_det * 5 + 1] = label;
            top_data[num_det * 5 + 2] = bboxes[i].score();
            if (!use_normalized_bbox_) {
              OutputBBox(bboxes[i], sizes_[count_], has_resize_,
                         resize_param_, &(bboxes[i]));
            }
            // Compare with each ground truth bbox.
            float overlap_max = -1;
            int jmax = -1;
            //找出与当前bboxes[i]的交集最大的gt_bboxes[jmax]
            for (int j = 0; j < gt_bboxes.size(); ++j) {
              float overlap = JaccardOverlap(bboxes[i], gt_bboxes[j],
                                             use_normalized_bbox_);
              if (overlap > overlap_max) {
                overlap_max = overlap;
                jmax = j;
              }
            }
            //只有阈值不小于overlap_threshold_的预测框才可能是正样本
            if (overlap_max >= overlap_threshold_) {
              if (evaluate_difficult_gt_ ||
                  (!evaluate_difficult_gt_ && !gt_bboxes[jmax].difficult())) {
                if (!visited[jmax]) {
                  // true positive.
                  top_data[num_det * 5 + 3] = 1;
                  top_data[num_det * 5 + 4] = 0;
                  visited[jmax] = true;
                } else {//它匹配的gt_bbox被前面的pred_bbox匹配了
                  // false positive (multiple detection).
                  top_data[num_det * 5 + 3] = 0;
                  top_data[num_det * 5 + 4] = 1;
                }
              }
            } else {
              // false positive.
              top_data[num_det * 5 + 3] = 0;//正样本标志为0
              top_data[num_det * 5 + 4] = 1;//负样本标志为1
            }
            ++num_det;
          }
        }
      }
    }

计算mAP的代码位于src/caffe/solver.cpp中的TestDetection的函数,该函数以vector<pair<float, int> > label_true_pos,vector<pair<float, int> > label_false_pos作为参数调用src/caffe/util/bbox_util.cpp文件中的ComputeAP函数。ComputeAP计算出所有的precision和recall值。average precision的计算方式有11point(VOC2007 styl),MaxIntegral(VOC2012 or ILSVRC style),Integral(会比11ponit计算出来的值略大)。

关于Average_precision的公式,可以参照wiki上的解释:Wikipedia entry for the Average precision

下面介绍下这三种AP的计算方式。首先需要画出P-R曲线(纵轴是P,横轴是R),它应该是条左上到右下的凸线;

如果一共有n个P-R值,Integral的计算方式是将横轴划分为n+1份,然后每份的宽度为recall[i+1]-recall[i],然后ap +=(recall[i+1]-recall[i])*precision[i],i逐渐增加到n。这个其实就是计算P-R曲线与横纵轴围城的面积,即积分;

MaxIntegral与Integral较相似,区别是MaxIntegral的计算方式是ap +=(recall[i+1]-recall[i])*precision[i+1],i逐渐减少到0;(是否MaxIntegral计算出来的值比Integral大?这个有待进一步验证)

11point的计算方式可以参照文章:深度学习-目标检测评估指标P-R曲线、AP、mAP。SSD的实现代码如下:

    //必须先对pair<rec,prec>按rec进行降序排序,否则结果不对
    // VOC2007 style for computing AP.
    vector<float> max_precs(11, 0.);
    int start_idx = num - 1;
    for (int j = 10; j >= 0; --j) {
      for (int i = start_idx; i >= 0 ; --i) {
        if ((*rec)[i] < j / 10.) {
          start_idx = i;
          if (j > 0) {
            max_precs[j-1] = max_precs[j];
          }
          break;
        } else {
          if (max_precs[j] < (*prec)[i]) {
            max_precs[j] = (*prec)[i];
          }
        }
      }
    }
    for (int j = 10; j >= 0; --j) {
      *ap += max_precs[j] / 11;
    }

上述代码感觉还有更优的实现。

其中prec,rec的计算方式如下:

const vector<pair<float, int> > tp;//<score,index>
const vector<pair<float, int> > fp;
// Compute cumsum of tp.
vector<int> tp_cumsum;
CumSum(tp, &tp_cumsum);//这里对tp和fp按照score降序排列
CHECK_EQ(tp_cumsum.size(), num);

// Compute cumsum of fp.
vector<int> fp_cumsum;
CumSum(fp, &fp_cumsum);
CHECK_EQ(fp_cumsum.size(), num);
// Compute precision.
for (int i = 0; i < num; ++i) {
    //注意:prec的排序不一定是降序
	prec->push_back(static_cast<float>(tp_cumsum[i]) /
				(tp_cumsum[i] + fp_cumsum[i]));
}
// Compute recall.
for (int i = 0; i < num; ++i) {
	CHECK_LE(tp_cumsum[i], num_pos);
	rec->push_back(static_cast<float>(tp_cumsum[i]) / num_pos);//rec和tp_cumsum一样,降序排列的
}

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/CHIERYU/article/details/80342090

智能推荐

程序免杀技术之——特征码_程序特征码-程序员宅基地

文章浏览阅读1w次,点赞4次,收藏19次。特征码(attribute code )是能识别一个程序是一个病毒的一段不大于64字节的特征串。为了减少误报率,一般杀毒软件会提取多段特征串,这时,我们往往改一处就可达到免杀效果,当然有些杀毒软件要同时改几处才能免杀。目前的核心免杀技术几乎都是围绕着特征码的修改,然后辅助之以花指令、压缩加密壳等手段。关于花指令的使用方法,我在上一篇文章中已经讲过了(http://bbs.honker._程序特征码

node中nvm的安装-采坑集合-程序员宅基地

文章浏览阅读382次。一. nvm是什么Node版本的迭代速度很快,版本很多,不同项目对 node的依赖不同,故需要切换不同node版本目前有n和nvm这两个工具可以对Node进行无痛升级,n 命令是作为一个 node 的模块而存在,而 nvm 是一个独立于 node/npm 的外部 shell 脚本,因此 n..._nvm 采坑

Cocos2d-x VLC Player_cocos vlc-程序员宅基地

文章浏览阅读2.5k次。由于项目需要用到动态的背景,测试发现,如果用帧序列动画将占用超过1G的内存,而CPU的利用率则一直保持在5%左右,所以想到将动态效果做成视频,循环播放,以作为背景之用。查询之下发现cocos2d-x本身带有一个叫做VideoPlayer的类,但是很可惜,它们只能用在移动平台上,而笔者的项目是基于Windows平台的,所以便在网上搜索实现方法,最终利用VLC Player实现了所需的效果。其实原_cocos vlc

linux内核input子系统解析_linux input=120201.k-程序员宅基地

文章浏览阅读1.7k次。作者:刘洪涛,华清远见嵌入式学院讲师。 Android、X windows、qt等众多应用对于linux系统中键盘、鼠标、触摸屏等输入设备的支持都通过、或越来越倾向于标准的input输入子系统。 因为input子系统已经完成了字符驱动的文件操作接口,所以编写驱动的核心工作是完成input系统留出的接口,工作量不大。但如果你想更灵活的应用它,就需要好好的分析下input_linux input=120201.k

[沟通能力] 述职,你搞定了吗?_scqa述职-程序员宅基地

文章浏览阅读2.2k次,点赞14次,收藏5次。恐惧大都因为无知与不确定感而产生。—— <<人性的弱点>>导言工作的本质在于通过群体活动来达成一个阶段性目标。作为程序员,沟通是必不可少的,而每次季度总结、年度总结,都是对自身沟通能力的一项大考。述职的本质述职是一种群体性的工作总结、自我剖析、对标学习、互相反馈的会议机制。述职过程可以通过自我反馈、同事反馈的方式来多维度的对自己个人成长和阶段性工作的复盘。同时也可以横向了解同事、团队的工作,寻求更积极的合作方式,进而实现共赢 。述职是希望让大家看到自己的盲区,反馈是为._scqa述职

[翻译] [Overleaf] LaTeX 中的粗体、斜体、下划线_overleaf 斜体-程序员宅基地

文章浏览阅读8.7w次,点赞27次,收藏108次。在一个文档中,简单的文字排版可以对某些概念进行重点描述,增强其可读性。使用粗体、斜体、或者下划线,可以带给读者不同的感觉。_overleaf 斜体

随便推点

android usb 开钱箱_Android开发中通过AIDL文件中的方法打开钱箱,显示LCD屏幕-程序员宅基地

文章浏览阅读735次。下载相关资源文件,在项目中新建如下层级的文件夹,将源文件中的AIDL文件放入其中。ICallback:打印服务执行结果的回调ITax:打印服务执行结果的回调ILcdCallback:顾显反馈结果根据需求选择aidl文件,IWoyouService是必须的。一般开钱箱使用IWoyouService和ICallback文件即可。引入AIDL文件1.找到需要导入工程的aidl文件.通过文本打开,找到..._安卓打开钱箱开发

php文件直链源码,PHP源代码直接获取蓝奏云直链下载源码-程序员宅基地

文章浏览阅读1.4k次。PS:别告诉我不知道怎么用,自己去折磨,这是PHP代码,自己创建一个PHP文件,把代码复制进去保存即可啊,多简单的事。然后上传到空间,再参考下面的链接,人家是怎样的,把域名改成你自己的,大概就这样吧。PHP获取蓝奏云直链的源码案例可以用来做api调用到网站做下载演示地址:https://api.mlooc.cn/lanzou/用法:直接下载:https://api.mlooc.cn/lanzou/..._文件分享代码下载ph{}]

Joint Histogram 联合直方图-程序员宅基地

文章浏览阅读3.9k次。在基于相互信息的图像配准有通过图像的联直方图快速估算联合概率分布的技巧,所以就看了一下图像的联合直方图。关于图像的联合直方图的意义不多解释了,很好理解,附一张图看看吧图片来源至如下paper:http://www.researchgate.net/publication/220507373_Image-to-Geometry_Registration_a_Mutual_Informati..._联合直方图

StringTemplate学习笔记(四) StringTemplateGroup文件-程序员宅基地

文章浏览阅读1.5k次。一,简介 StringTemplateGroup文件时在StringTemplate2.0之后被引入的。 主要有以下特点:可以把多个模板定义在一个模板组文件里提供了对模板参数的检测(所有属性都必须在模板属性列表中列出,否则会报错),使模板更加容易阅读 test.stg/* group name 定义*/group simple;/*..._stringtemplategroup

通过终端安装dmg或这pkg文件_终端运行pkg-程序员宅基地

文章浏览阅读1k次。通过终端安装dmg或这pkg文件安装的整体流程是:切换到下载内容存放目录cd ~/Downloads下载DMG文件curl -0 resourceURL安装DMG,默认在/Volumes/下hdiutil attach xxx.dmg复制.app到/Application/下cd /Volumes/cp -rf ./xxx.app /Applicationssudo installer -pkg xxx.pkg -target /Applications/ //pkg文件安_终端运行pkg

mysql只有两个数据库_MySQL只有information_schema,test两个数据库-程序员宅基地

文章浏览阅读820次。安装好数据库时,连接MySQL,查看数据库时,发现只有两个数据库。MBP:~ gegongxian$ mysqlWelcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 75Server version: 5.6.27 MySQL Community Server (GPL)Copyri..._mysql5.6安装完之后只有两个数据库