Машинное обучение: точность, точность, полнота

машинное обучение
Машинное обучение: точность, точность, полнота

1/ Каков уровень точности/показатель точности/показатель отзыва

TP: 正确识别为正样本
TN: 正确识别为负样本
FP: 错误识别为正样本
FN: 错误识别为负样本

以上:T是True,F为False,
     P是positive,N是negative

准确率:Accuracy,所有样本预测正确的比例,及预测正确的正负样本 / 预测的总数量
       及只要你预测正确了,不管是正样本还是负样本,都算在内。
       ACC = (TP+TN) /(TP+TN+FP+FN)
       
       准确率这个指标,在数据分布不平衡的场景中,是不合适的。
       所有我们的离职系统,是不是采用准确率这个指标的。
       因为离职的人毕竟是少数。


精确率:Precision
       只看预测为正样本的,有多少是真正的正样本。
       Precision= TP / (TP+FP)
       
       比如离职预警系统,我们的目的是预测一个人是否要离职,模型给出的是可能会离职的人员名单。
       比如我预测出来有100个人可能离职(给出的标签是1),结果其中有80个人真的离职了,
       那么精确率就是80/100=80%
       
       如果是检索系统,精确率就是检索出来的条目中(比如文档和网页)有多少条是准确的。
       
       
召回率:Recall(查全率)
       Recall= TP / (TP+FN)
       # 正确识别为正样本的 / 正确识别为正样本的+错误识别为负样本的
       
       在离职预警系统中,及在所有离职的人当中,预测对了几个。
       比如我预测有100个人可能会离职(给出的标签是1),但是后来发现实际中有120个人离职了,
       而我这100人名单了,只有60个人是在120人的名单之中,则召回率是60/120=50%
       
       如果是检索系统,召回率就是所有准确的条目(比如文档和网页)中有多少被检索出来了。

2/ Несбалансированное распределение данных

 倘若某人声称搭建了一个能够识别登上飞机的恐怖分子的模型,并且准确率(accuracy)高达 99%。
 你相信吗?
 好了,有这么一个模型:将从美国机场起飞的所有乘客简单地标注为非恐怖分子。
 已知美国全年平均有8亿人次的乘客,并且在 2000-2017 年间共发现了19名恐怖分子,
 这个模型达到了接近完美的准确率——99.9999999%。
 尽管这个模型拥有接近完美的准确率,但是在这个问题中准确率显然不是一个合适的度量指标。
 
 恐怖分子检测就是一个数据分布不平衡的分类问题:
     我们需要鉴别的类别有两个——恐怖分子和非恐怖分子,其中一个类别代表了极大多数的数据点。         
     绝大多数都是非恐怖分子,只有极少数是恐怖分子。
     
 另一个不平衡分类问题出现在当疾病在公众中的发病率很低时的疾病监测。
 
 在这两种情况下,正例类别——疾病或恐怖分子,远远少于负例类别的数量。这种问题是数据科学中比较常见的例子,其中准确率并不是评估模型性能的很好的衡量标准。
 
 直观地说,我们应该聚焦于正例(恐怖分子)的识别。
 
 还有一个例子,比如在公司内,预测员工是否离职。在预测离职这个场景下,离职的人是少数,不离职的人是多数。这就是数据分布均匀的情况。

3/пример

预测一架飞机上的乘客是不是恐怖分子。

准确率: 所有判断正确的数量(包括预测为恐怖分子和预测为不是恐怖分子) / 总的数量
        在数据分布不平衡的场景中,准确率这个指标不合适。
        
精确率:在判为恐怖分子的人当中,实际真的是恐怖分子的占比。
       比如我预测出来10个人是恐怖分子,结果其中有5个真的是恐怖分子,则精确率是5/10 = 50%
       比如预测员工离职,我预测有10个人可能离职,结果其中有8个人真的离职了,则精确率是8/10=80%
       
召回率:就是正确判为恐怖分子的数量 / 实际上所有的恐怖分子的数量
       比如我预测10个人是恐怖分子,实际上整架飞机上有5个恐怖份子,
       我预测的这10个人中,真正是恐怖分子的有3个人,所以召回率是3/5=60%

4/ Противоречие между точностью и полнотой

精确率提高,召回率会降低,反之亦然。
精确率 和 召回率 权衡
f-measure是对精确率和召回率的调和平均
F-measure = 2 * ( precesion*recall / (precison+recall) )


我们当然希望检索的结果Precision越高越好,Recall也越高越好,
但事实上这两者在某些情况下是矛盾的。
比如极端情况下,我们只搜出了一个结果,且是准确的,那么Precision就是100%,但是Recall就很低;
而如果我们把所有结果都返回,那么必然recall是100%,但是Precision很低。

这就是说精确率和召回率是互相影响的,理想情况下肯定是做到两者都高,
但是一般情况下精确率高、召回率就低,召回率低、精者都低,那是什么地方出问题了。
一般情况,用不同的阀值,统计出一组不同阀值下的准确率和召回率。

因此P和R指标出现矛盾时在不同的场合中需要自己判断希望P比较高还是R比较高。

如果是做搜索,那就是保证召回率的情况下提升精确率。
如果做疾病监测、反垃圾,则是保证精确率的条件下,提升召回率。
如果是做实验研究,也可以绘制Precision-Recall曲线来帮助分析。

如果是做离职预测,那应该是注重精确率,然后再想办法提高召回率。

5/ В области информационного поиска

在信息检索领域,精确率和召回率又被称为查准率和查全率,

查准率 = 检索出的相关信息量 / 检索出的总信息量
查全率 = 检索出的相关信息量 / 系统中的相关信息总量