百亿级别数据的AUC如何计算 香橙云子 2019-11-27 2,320 阅读1分钟 在百亿量级的样本下计算AUC,采用2种基础的AUC计算方法都有着耗时明显的问题,所以最好的思路是借助于大数据的分布式计算能力。这里可以借助AUC的物理含义:“任取一个正例和任取一个负例,正例排序在负例之前的概率”,可以直接sample出一大批positive和negative的样本pair(用spark可以指定数量),统计正例的预估概率结果高于负例的次数(这个是一个简单的判断,用spark非常快),然后计算占比,就是大致的AUC值。