dastu的博客：一文理清楚，准确率，精度，召回率，真正率，假正

当前位置博文首页 > dastu的博客：一文理清楚，准确率，精度，召回率，真正率，假正

最大化缩小

dastu的博客：一文理清楚，准确率，精度，召回率，真正率，假正

作者：[db:作者] 时间：2021-09-19 19:21

一.混淆矩阵

在这里插入图片描述
如上图为一个混淆矩阵，
True Positive （真正, TP）被模型预测为正的正样本；

True Negative（真负 , TN）被模型预测为负的负样本；

False Positive （假正, FP）被模型预测为正的负样本；

False Negative（假负 , FN）被模型预测为负的正样本；

相对应的，

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）
TPR = TP /（TP + FN）
正样本预测结果数 / 正样本实际数

True Negative Rate（真负率 , TNR）或特指度（specificity）
TNR = TN /（TN + FP）
负样本预测结果数 / 负样本实际数

False Positive Rate （假正率, FPR）
FPR = FP /（FP + TN）
被预测为正的负样本结果数 /负样本实际数

False Negative Rate（假负率 , FNR）
FNR = FN /（TP + FN）
被预测为负的正样本结果数 / 正样本实际数

二.其它的定义：

准确率：
预测对的样本占样本总数的比例

准确率 = 预测情况与真实情况一致的样本个数 / 样本总数

Accurancy = ( TP + TN ) / ( TP + TN + FP +FN )

精度p：
预测为正样本的里面有多少是真正的正样本

精度 = 预测为正的正样本个数 / 预测为正的样本个数 =TP/(TP+FP)

召回率r：
召回率 = 被预测为正的样本个数 /正样本个数=TP/(TP+FN)

召回率的值等于真正率

F1度量：
对于精度和召回率之间的平衡，我们取两者的调和平均作为F1度量，可以有效的同时考虑到精度和召回率两者。
F1=2/(1/r+1/p）
F1趋向于接近r和p中的较小数，因此一个高的F1度量值确保精度和召回率都比较高。

三.ROC/AUC

ROC中文名为接收者操作特征曲线，显示的是分类器真正率和假正率之间折中的一种图形化方法。在ROC曲线中，Y轴代表着真正率，X轴代表着假正率。在这里插入图片描述

一个好的分类器应该更靠近图的左上角，而一个随机的分类器其曲线为点（0，0）和（0，1）的连线。

ROC曲线下方的面积AUC提供了评价模型平均性能的另一种方法，如果模型是完美的，则AUC=1，即曲线下方面积为1。如果模型是随机猜测的，则AUC=0.5.模型越好，其曲线下方面积应该越大。

产生ROC曲线：
如果大家对二值分类模型熟悉的话，都会知道其输出一般都是预测样本为正例的概率，而事实上，ROC曲线正是通过不断移动分类器的“阈值”来生成曲线上的一组关键点的。
一般输出样本为正例的概率，即输出值为0~1，我们把阈值从0-1之间调整，阈值每调整一次，每次取一个输出的概率，则可以得到一次对应的真正率和假正率，当所有的概率都取过之后，则得到完整的ROC曲线。

另外AUC是不受正负样本不均衡影响的。比如负样本数翻10倍，通过公式可以看出TPR是不变的,而FPR上下是成比例增加的，也基本不变，所以AUC曲线基本不变。

参考书籍：
《数据挖掘导论》由人民邮电出版社出版，[美]作者Pang-Ning Tan，Michael Steinbach，Vipin Kumar 合著

上一篇：dastu的博客：聚类分析（二）——二分K均值

下一篇：没有了

立即下载 - IIS7 站长工具包