登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

生活也是大事业

阿波的学习、工作和生活

 
 
 
 
 

日志

 
 
关于我

江浙沪,数学系,天蝎座O型,懒洋洋,傻乎乎

文章分类

ROC曲线的进进一步学习(关于最佳切点,我的揣测)  

2010-11-26 16:02:06|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
这是之前的1.0版本,试着理解了一下对角线作为基准的性质。
之所以有进进一步的学习,则是因为cos论坛上这个帖子。
问题很简单:画好ROC曲线后,如何确定最佳切点(阈值)。

我的直观理解:ROC曲线越靠近左上角说明模型效果越好,这种靠近可以用ROC曲线与对角线的距离来衡量。(更常用的衡量是AUC,也就是曲线下方的面积。)
所以最佳的切点(这里的切点是指我们模型中的那个阈值)其实就是平移对角线后与ROC曲线相切的那个点,也就是ROC曲线上距离对角线最远的点,也就是ROC曲线上斜率为1的点。

我一直觉得这种理解是蛮简单直观的,没有考虑这种相切到底是啥意思。后来在帖子里看到那个Youden index,终于有点揣测到了。所谓的Youden index方法,就是使得sensitivity+specificity最大,转换成我比较熟悉的说法,就是使得TPR-FPR+1最大。
于是,Youden index方法其实就是在求TPR-FPR的最大值,这个最大值对应的切点就是所谓的最佳切点。
这时我就可以增加我的揣测了。TPR-FPR的最大值就对应着最佳切点,这个很可以理解,因为TPR是越大越好而FPR是越小越好,这两者之间存在一定的相互牵制的关系,所以TPR-FPR最大化的过程其实就是利益最大化的过程(更细致地说还应该有一个损失矩阵然后做加权,但本质上是一样一样一样的,只不过是看具体问题到底是对TPR更敏感还是对FPR更敏感,或者说是阻挡一个坏人的效益高还是阻挡一个好人的损失大)。
同时,这个最大化的过程可以理解为一个线性规划:TPR-FPR是目标函数,而可行域就是那条ROC曲线。

于是,这个线性规划将我前面的两个直观揣测联系了起来:使得TPR-FPR最大的那个切点就是我们想要得到的最佳切点,而从线性规划的做法来看,这个切点确实就是平移对角线后与ROC相切的那个点。

从图形上也可以看出TPR-FPR与距离的一一对应关系。
ROC曲线的进进一步学习(关于最佳切点,我的揣测) - 波波头一头 - 生活也是大事业

更进一步地,max(TPR-FPR)这个值似乎跟传说中的KS指标有关(甚至就等于KS??)KS也是衡量模型效果的一个指标,但是我呼唤了好久胡江堂都没写(="=),而且我在其他材料里也看到KS的不同定义,所以不能确定地说KS=max(TPR-FPR),但是显然地两者有显著的关系。
(后来问了老段,应该就是KS=max(TPR-FPR)。)

最后仍旧是一条代码。
ROC曲线的进进一步学习(关于最佳切点,我的揣测) - 波波头一头 - 生活也是大事业

打完收工。

 
  评论这张
 
阅读(3085)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018