主要研究的网络安全、异常检测、网络舆情监控、网络流量分析、威胁情报、情感分析等方面的，所以本文主要会根据这部分数据进行介绍。数据集以开源数据集为主，涉及隐私、数据安全的客户数据本文不做介绍。

1.网络安全

1.1 入侵检测、异常流量检测

对于入侵检测的研究,需要大量有效的实验数据。数据可以通过抓包工具来采集，如Unix下的Tcpdump，Windows下的libdump，或者专用的软件snort、zeek、argus、wireshark等捕捉数据包，生成连接记录作为数据源。

本文使用的是基于数据挖掘的入侵检测技术研究中使用的KDDCup99的网络入侵检测数据集、UNSW-NB15数据、IDS2017等数据集

1.1.1 kddcup99

针对kddcup99数据集，数据集比较老，更新力度较小，国内异常流量研究、硕士论文等主要应用的这个老数据。各相关论文准确率、误报率和漏报率都较低，现在在学术方面主要应用来验证算法优化、算法改进等方面的研究。

本数据中主要分为四种数据类型：DOS、R2L、U2R、PROBING

每一个连接有41个特征，主要分为：TCP连接、时间网络流量统计特征（主要针对在2秒内的连接进行统计分析）、主机网络流量统计特征（100个连接进行统计分析）。主要内容就不做一一分析了。

根据看过的论文：特征选择：信息增益、pca、机器学习的方式、相关系数等。

训练模型：机器学习和深度学习的方法都有应用。效果较优的主要为：神经网络。

优化：主要分为优化算法模型，使用全局优化算法来优化机器学习的局部优化和损失函数等。

论文较多、建议多看英文文献，国内的处理方法都是一样的。

1.1.2 UNSW-NB15数据集

本数据集采用的是zeek、argus来得到网络流量数据，判断每一条连接。

数据集中一共有9种攻击: This dataset has nine types of attacks, namely, Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode and Worms.

数据每一条连接都有49个特征，其中主流特征以argus解析特征为主，然后将zeek的http/ftp等特征进行对应，最后计算100条连接的统计特征。

数据集相对比较好一点，但是在公开的数据集中，数据处理部分比较粗。其中很多异常数据都存在重复。

根据实验结果分析，使用测试集训练集效果都较优，但是使用到真实网络环境和真实攻击检测时，模型的泛化能力较弱。

mathpretty.com/11062.html

1.1.3 IDS2017数据集

攻击包括暴力FTP、暴力SSH、DoS、Heartbleed、Web攻击、渗透、僵尸网络和DDoS

使用CICFlowMeter工具得到80多个特征数据。

进行检测时，同样存在泛化能力不强的问题。

其他数据集可以参考：blog.csdn.net/jmh1996/art…

blog.csdn.net/answer3lin/…

2.网络舆情

主要为收集的客户隐私数据，这里就不一一介绍了。开源数据集：主要为情感、电影等一些NLP方面的数据。

主要下载为github上数据集，一般实验和产品研发主要使用的是公司自己的威胁情报中心或大数据平台的数据。但是这些数据比较基础，许多特征工程需要很精细，较耗费时间，但是针对自己的业务具有较好的效果。

本数据主要有：国内外舆情文本、QQ和微信数据、朋友圈、微博等，公开发布的实时情报数据等。

3.webshell

针对的webshell的检测，主要是实验和demo的验证阶段，采用检测引擎的方式进行产品孵化。

在初期验证阶段主要使用的数据集为开源收集共享数据，然后目前公司主要是根据语法树、语义等方式进行规则匹配的方式来判断攻击漏洞等。

数据集：github.com/tennc/websh…

测试数据集：针对工具采集的pcap包，然后进行解析提取出http中的文本数据，进行真实的检测。

内部测试：开源引擎一段时间，让所有进行测试并返回效果。

4.WAF和URL数据

针对WAF由静态规则到语义语法最后到AI引擎的过程，如果是自己体验和实验demo的时候，可以考虑使用开源数据集，和一些特征处理方法。（涉及url编码，url结构解析之类等工作）

开源数据集：可以在github上搜索，由于时间较长了，这里没有具体保存连接（不好意思）

引擎阶段：使用第二代waf语义产品的结果，作为数据集（涉及base64编码，URL编码、标签数据存在噪声和错误等问题），根据具体需求强化模型。

产品孵化阶段：主要为WAF产品赋能

5.用户行为检测

本方面主要涉及的为内部系统、用户系统、运维系统等，使用数据：用户上网特征、运维维护特征、用户消费特征等。

数据集：全是内部隐私数据，难以做分享。

可以使用美国、国内一些脱敏的数据进行实验

后期有什么数据在做具体分享。其他机器学习的数据kaggle、比赛数据都具有一定价值。一些其他方面的数据这里不一一介绍了（主要是用来熟悉机器学习的）。

机器学习数据集整理