P2P 深度透视 OMNIRank 平台风险量化这是之前参加某次比赛的成果，在此和大家分享，欢迎对数据感兴趣的朋友多指点

这是之前参加某次比赛的成果，在此和大家分享，欢迎对数据感兴趣的朋友多指点。

问题背景

互联网金融2007年进入国内，2013年得到了蓬勃的发展。与此同时，也出现了很多问题平台诸如提现困难、老板跑路、停业等。截止2016年3月，在国内近4000家P2P平台中，问题平台比例已接近40%，投资者的资金难以得到保障。投资者希望知道自己的资金放在哪里最安全？投到哪个平台最有安全保障？这正是我们产品要解决的核心问题，客观精确地对P2P平台进行风险量化。

我们对出现问题的P2P平台做了分析，可能的原因归结为两条：

先天基因能力不足：如创始团队缺乏过硬技术与运营经验、注册资金过少难以承受突发危机等；
后天发展存在问题：如过分抬高利率导致难以向投资者兑现、过度追求利润而忽视了风险控制等。

根据以上的分析，我们选取以下四大类的特征作为平台风险的量化依据，包括静态特征与动态特征两部分。其中静态特征对应于平台先天基因，包括平台的基本属性，例如注册资金、所在城市、担保机构等；动态特征对应于平台的后天发展，包括平台的各项指数、新闻舆情、用户评论等信息。

系统架构

下面是我们的系统架构，首先使用网络爬虫获取多源异构数据，解析得到结构化数据。通过数据清洗将结构化数据整理成我们的数据资产。在此基础上我们使用文本处理、主题模型、知识图谱、情感分析等技术分析数据资产，挖掘其中的内在规律。之后我们提出核心模型，OMNIRank，对各个P2P平台进行风险量化，形成知识供投资者决策。最后，我们将数据分析、模型量化的结果进行可视化，为投资者提供友好的交互界面。

数据源选择

为了全面获取各个P2P平台的信息，我们选择了客观的新闻门户、主观的民意评论、权威的网贷社区和平台官方平台网站作为数据源，从各个维度了解平台，为后续分析打下基础。

数据获取

我们基于Scrapy开发了爬虫框架OMNISpider，它可以：

分布式可扩展：集成Redis、Hadoop，部署于上海交通大学网络信息中心，支持更多数据源的并发爬取；
灵活配置：通过修改配置文件即可添加新的任务或更新已有任务，无需重构代码。

只需简单的配置，既可以通过调度、爬取、解析、存储模块在短时间内爬取海量的多源异构数据。

数据清洗

下图是我们的数据清洗过程。我们对爬取的结构化数据进行了数据去重、空值处理、数据去噪、格式统一、对齐融合。

数据资产

经过数据的清洗与融合，我们得到了数据资产。据不完全统计，我们的数据资产包括27万余条新闻、8万多条P2P相关的微博和评论、3050家P2P平台的基本信息、3年来各平台指数月评级数据。为了持续地扩充数据资产，我们把数据存放在Hadoop分布式文件系统(HDFS)中。

数据分析

在此基础上，我们希望进一步得到与平台风险有关的信息。首先是文本处理，使用分词技术对新闻文本、用户评论文本等进行分词与词性标注，用Word2Vec技术将词语训练为高维向量，从而更好地表示地词语间的相互关系以及其中蕴含的语义。

在理解文本的基础上，我们使用LDA模型对新闻进行处理，生成5个主题，每个主题取权重前7的词语作为关键词。通过各个平台在不同主题上的新闻分布规律和变化趋势，我们可以对平台进一步地理解，并了解整个行业的最新热点。

我们对语义信息、主题信息进行整理，经过命名实体识别、关系抽取、开放域知识提取技术，形成了一个包含1万多个结点的知识图谱。为了提供更快的查询服务，我们将它存在图数据库中。投资者可以进行知识探索，更加全面的了解各平台、人员、职位、地理分布之间的联系。

为了更进一步理解平台口碑，我们对新闻以及用户评论数据做情感分析，判断出整个行业，以及各个平台的舆论倾向，并以天为粒度进行统计，便于投资者全面了解行业，进行投资决策。

OMNIRank模型

经过以上数据资产的准备及探索分析，我们提出我们的核心模型OMNIRank，一个对P2P平台进行风险量化，为投资者提供投资决策的模型。Google开发了人工智能AlphaGo。它是一个会下围棋的人工智能。它采用全局特征和局部特征结合的思想，主要方法是深度神经网络。

OMNIRank是一个对P2P平台风险量化的人工智能，它的本质是一个深度神经网络。模型输入5大类共118个特征，包含全局的静态特征、局部的动态特征。结合各个特征特点及神经网络模型的优势，我们设计了OMNIRank深度神经网络：

使用多层神经网络(MLP)处理静态平台属性特征；
使用长短时记忆元(LSTM)处理动态平台指标时间序列；
使用卷积神经网络(CNN)和LSTM处理新闻、评论等文本数据。

就像AlphaGo可以进行自我对弈一样，OMNIRank可以通过反馈回路自我学习，不断提升模型的能力。

下图展示了OMNIRank模型对平台风险量化的效果。我们在近半年的数据集上进行了验证，使用两个指标对模型性能评估：准确率和AUC值。其中准确率表示模型把平台分类正确的比例；AUC是模型对正负样本区分程度的量化评估。准确率与AUC值越高，表示模型效果越好。可以看到，半年来，模型对平台判断的准确率与AUC值呈上升趋势，并且在最近的一个月(2016年4月)的评估中，准确率达0.85，AUC值达0.9以上。

为了更直观地呈现模型效果，我们展示了OMNIRank模型对正常平台和问题平台的风险辨识。OMNIRank对一个平台评分越高，表示这个平台越可靠，风险越低。下图是2016年4月对各个平台的评分分布，正常平台集中在1附近，问题平台集中在0附近，可见OMNIRank成功地将问题平台与正常平台区分开。

我们将OMNIRank与其他机器学习算法，包括逻辑回归(Logistic Regression)、随机森林(Random Forest)、支持向量机(SVM)进行了对比，对比结果如下图所示。我们发现，比起其他模型，OMNIRank可以更加显著地区分正常平台和问题平台，它具有更强的能力识别出问题平台。因此OMNIRank对平台风险的量化比传统模型更加可靠。

OMNIRank是如何帮助投资者选择投资平台的呢？我们每个月使用OMNIRank对平台风险进行量化预测，并根据量化结果对平台排名，排名越靠前表示该平台下个月出现问题的概率越低。之后计算在不同排名区间的平台，在下个月实际出问题的比率。我们发现，半年来排名前100的平台没有出现问题，这给投资者提供了一个安全的投资区域。另外，区间越大，平台的平均利率越高，但同时也伴随着更高的风险。投资者可以根据自己的自身情况，平衡风险与收益，选择最适合自己的平台。