首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
zzz的个人博客
zzz风控
创建于2022-02-10
订阅专栏
个人博客
暂无订阅
共10篇文章
创建于2022-02-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
风控算法-iForest
算法假设 iForest(孤立森林)是一个无监督、高性能的异常挖掘算法,它利用异常点的两个基本特性:1)它们是数据集中的少数 2)它们的某些属性取值很不同于正常数据
风控算法-Synchrotrap
摘要 一句话总结,SynchroTrap是Facebook提出的基于用户之间相似性的聚类算法。它的基本想法是作弊账号在社交网络中的行为比较同步,即通过行为去捕捉作弊者团伙性。
风控算法-TrustRank
算法背景 TrustRank是2004年提出适用于web搜索引擎链接作弊(web spam)场景的算法。虽然算法原理比较简单,但是在具备实锤作弊黑样本的情况下还是比较有用的
风控算法-CopyCatch
CopyCatch是Facebook的一个风控算法,它的核心是基于用户行为和时间的双聚类。值的借鉴的是它提出的lockstep behavior的想法。
Graphx中处理字符串类型的ID
Graphx是Spark中的高性能的分布式图处理框架,但是它的结点ID只能是Long型的,但是在实际的业务中有时会遇到字符串类型的ID,这时需要建立一个结点ID映射的处理机制。
谈谈SQL编码规范
有不少搞数据的同学自嘲为SQL Boy/Girl,而这也恰恰说明了使用SQL进行各种数据处理/分析在日常的工作中比重比较大,那么养成良好的SQL书写习惯也就成了一个比较重要的事情(基本功)。写SQL和
Graphx中的三角计数
在网络中计算节点的重要性有着比较多的应用, 比如找到一些大点进行信息传播或者找到一些异常点进行风险判定等。 有几种常用的方法: betweeness(界数):首先找到网络中的所有最短路径,然后对每个最
Spark+Python ML库进行分布式预测
很多机器学习库往往都只有python的版本,但是由于都是本地单机版的,所以并不适用于线上大规模的例行离线预测。Spark虽然也有mllib,但是支持度并不够,很多有用的算法并没有集成。所以需要考虑如何
Catboost-在线预测
生产环境很多时候是需要实时对数据进行预测的,即离线训练好模型后将模型保存为模型文件,然后在线服务将模型加载到内存 引入pom.xml 样例代码 需要注意的地方 catboost模型需要同时传入floa
Catboost-算法原理
总结一下catboost关键的知识点 常规处理类别特征的方法是one-hot,但是也可以将类别特征转化为和label相关的数值特征,也就是target statistics,最简单的方法就是计算概率值