泰迪杯虽然过去蛮久的了,但是还是想写一下自己的思路和想法,分享一下,并总结归纳一下当时的一些错误和想法。当时刚开始打的时候也是一脸迷茫,蛮喜欢能够有个文档分享一下自己的解题过程,因此现在写一份大概的思路,希望有帮助(本人很菜,各个环节都是刚学没多久,如有不当之处希望指出)。
这次泰迪杯选的是A题,金融类数据挖掘——公司财务造假预测。
随着我国经济的快速发展,证券市场不断扩容,不同行业、不同规模的上市 公司不断增加,目前 A 股上市公司的数量已超过 4000 家。然而,近年来不时出 现上市公司财务数据造假及暴雷的情况,2020 年还出现了流动性危机及信用债 违约等问题。这些问题提醒监管部门对上市公司进行有效监控。 建立健全的常态化退市机制是中国资本市场的必经之路。近年来,监管部门 已加大了监管力度,对于出现严重财务数据造假、丧失持续经营能力的上市公司, 强制退市是唯一的选项。然而上市公司的退市必定会给投资者带来损失,因此投 资者在选择投资品种时,有必要对上市公司的财务数据进行深入的分析研究。作 为专业投资者,研究一家上市公司的财务数据是否稳健,需要考虑相关的诸多因 素。面对上市公司多年的财务数据报告,筛选数据指标进行跟踪分析和研究,识 别真伪,避免投资踩雷。
问题重述 1.根据附件 1 的行业分类,利用附件 2 所提供的相关上市公司的财务数据, 确定出各行业与财务数据造假相关的数据指标,并分析比较不同行业上市公司相 关数据指标的异同。
2.根据附件 2 中制造业各上市公司的财务数据,确定出第 6 年财务数据造假 的上市公司。
3.根据附件 2 中其他(除制造业外)各行业上市公司的财务数据,确定出第 6 年财务数据造假的上市公司。
可以看出数据特征的多 行数较少 训练加测试集只有两万多行 而且很多特征是具有大量缺失的,所以后续需要将那些大量缺失值的特征删除或者填补。
除此之外还有一些的离散特征 但是好多都是相同的 可以根据方差大小进行处理
大量的线性特征,而且这些线性特征都是可以
因此有个大概的思路:
后续 泰迪杯国奖思路分享(二)--数据清洗与特征构造 - 掘金 (juejin.cn)
有兴趣可以关注我的公众号 里面会分享个人关于数据挖掘的一些学习笔记和想法