精确率与召回率，RoC曲线与PR曲线

2017-11-22 1573

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？

　　　　首先，我们需要搞清楚几个拗口的概念：

1. TP, FP, TN, FN

1. 　　True Positives,TP：预测为正样本，实际也为正样本的特征数
2. 　　False Positives,FP：预测为正样本，实际为负样本的特征数
3. 　　True Negatives,TN：预测为负样本，实际也为负样本的特征数
4. 　　False Negatives,FN：预测为负样本，实际为正样本的特征数

　　　　听起来还是很费劲，不过我们用一张图就很容易理解了。图如下所示，里面绿色的半圆就是TP(True Positives), 红色的半圆就是FP(False Positives), 左边的灰色长方形（不包括绿色半圆），就是FN（False Negatives）。右边的浅灰色长方形（不包括红色半圆），就是TN(True Negatives)。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正值的样本。

2. 精确率(precision),召回率(Recall)与特异性(specificity)

　　　　精确率（Precision）的定义在上图可以看出，是绿色半圆除以红色绿色组成的圆。严格的数学定义如下：

　　　　P=TPTP+FP

　　　　召回率(Recall)的定义也在图上能看出，是绿色半圆除以左边的长方形。严格的数学定义如下：
R=TPTP+FN

　　　　特异性(specificity)的定义图上没有直接写明，这里给出，是红色半圆除以右边的长方形。严格的数学定义如下：

　　　　S=FPFP+TN

　　　　有时也用一个F₁值来综合评估精确率和召回率，它是精确率和召回率的调和均值。当精确率和召回率都高时,F₁值也会高。严格的数学定义如下：

　　　　2F1=1P+1R

　　　　有时候我们对精确率和召回率并不是一视同仁，比如有时候我们更加重视精确率。我们用一个参数β来度量两者之间的关系。如果β>1, 召回率有更大影响，如果β<1,精确率有更大影响。自然，当β=1的时候，精确率和召回率影响力相同，和F₁形式一样。含有度量参数β的F₁我们记为Fβ, 严格的数学定义如下：

　　　　Fβ=(1+β2)∗P∗Rβ2∗P+R

　　　　我们熟悉了精确率，召回率和特异性，后面的RoC曲线和PR曲线就好了解了。

3. RoC曲线和PR曲线

　　　　有了上面精确率，召回率和特异性的基础，理解RoC曲线和PR曲线就小菜一碟了。

　　　　以召回率为y轴，以特异性为x轴，我们就直接得到了RoC曲线。从召回率和特异性的定义可以理解，召回率越高，特异性越小，我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。如下图左图所示。从几何的角度讲，RoC曲线下方的面积越大越大，则模型越优。所以有时候我们用RoC曲线下的面积，即AUC（Area Under Curve）值来作为算法和模型好坏的标准。