zzz的个人博客

zzz的个人博客

zzz的个人博客

个人博客

暂无订阅共10篇文章创建于2022-02-10

风控算法-iForest

算法假设 iForest(孤立森林)是一个无监督、高性能的异常挖掘算法，它利用异常点的两个基本特性：1）它们是数据集中的少数 2）它们的某些属性取值很不同于正常数据

4年前
392
点赞
评论

风控算法-Synchrotrap

摘要一句话总结，SynchroTrap是Facebook提出的基于用户之间相似性的聚类算法。它的基本想法是作弊账号在社交网络中的行为比较同步，即通过行为去捕捉作弊者团伙性。

4年前
1.1k
点赞
评论

风控算法-Synchrotrap

风控算法-TrustRank

算法背景 TrustRank是2004年提出适用于web搜索引擎链接作弊(web spam)场景的算法。虽然算法原理比较简单，但是在具备实锤作弊黑样本的情况下还是比较有用的

4年前
592
1
评论

风控算法-CopyCatch

CopyCatch是Facebook的一个风控算法，它的核心是基于用户行为和时间的双聚类。值的借鉴的是它提出的lockstep behavior的想法。

4年前
703
点赞
评论

Graphx中处理字符串类型的ID

Graphx是Spark中的高性能的分布式图处理框架，但是它的结点ID只能是Long型的，但是在实际的业务中有时会遇到字符串类型的ID，这时需要建立一个结点ID映射的处理机制。

4年前
241
点赞
评论

Graphx中处理字符串类型的ID

谈谈SQL编码规范

有不少搞数据的同学自嘲为SQL Boy/Girl，而这也恰恰说明了使用SQL进行各种数据处理/分析在日常的工作中比重比较大，那么养成良好的SQL书写习惯也就成了一个比较重要的事情(基本功)。写SQL和

4年前
352
点赞
评论

Graphx中的三角计数

在网络中计算节点的重要性有着比较多的应用，比如找到一些大点进行信息传播或者找到一些异常点进行风险判定等。有几种常用的方法： betweeness(界数)：首先找到网络中的所有最短路径，然后对每个最

4年前
938
点赞
评论

Spark+Python ML库进行分布式预测

很多机器学习库往往都只有python的版本，但是由于都是本地单机版的，所以并不适用于线上大规模的例行离线预测。Spark虽然也有mllib，但是支持度并不够，很多有用的算法并没有集成。所以需要考虑如何

4年前
926
点赞
评论

Spark+Python ML库进行分布式预测

Catboost-在线预测

生产环境很多时候是需要实时对数据进行预测的，即离线训练好模型后将模型保存为模型文件，然后在线服务将模型加载到内存引入pom.xml 样例代码需要注意的地方 catboost模型需要同时传入floa

4年前
300
点赞
评论

Catboost-算法原理

总结一下catboost关键的知识点常规处理类别特征的方法是one-hot，但是也可以将类别特征转化为和label相关的数值特征，也就是target statistics，最简单的方法就是计算概率值

4年前
698
点赞
评论