泰迪杯国奖思路分享(一)--背景分析和数据总览泰迪杯虽然过去蛮久的了，一下自己的思路和想法，分享一下，并总结归纳一下当时

泰迪杯虽然过去蛮久的了，但是还是想写一下自己的思路和想法，分享一下，并总结归纳一下当时的一些错误和想法。当时刚开始打的时候也是一脸迷茫，蛮喜欢能够有个文档分享一下自己的解题过程，因此现在写一份大概的思路，希望有帮助（本人很菜，各个环节都是刚学没多久，如有不当之处希望指出）。

这次泰迪杯选的是A题，金融类数据挖掘——公司财务造假预测。

随着我国经济的快速发展，证券市场不断扩容，不同行业、不同规模的上市公司不断增加，目前 A 股上市公司的数量已超过 4000 家。然而，近年来不时出现上市公司财务数据造假及暴雷的情况，2020 年还出现了流动性危机及信用债违约等问题。这些问题提醒监管部门对上市公司进行有效监控。建立健全的常态化退市机制是中国资本市场的必经之路。近年来，监管部门已加大了监管力度，对于出现严重财务数据造假、丧失持续经营能力的上市公司，强制退市是唯一的选项。然而上市公司的退市必定会给投资者带来损失，因此投资者在选择投资品种时，有必要对上市公司的财务数据进行深入的分析研究。作为专业投资者，研究一家上市公司的财务数据是否稳健，需要考虑相关的诸多因素。面对上市公司多年的财务数据报告，筛选数据指标进行跟踪分析和研究，识别真伪，避免投资踩雷。

问题重述 1.根据附件 1 的行业分类，利用附件 2 所提供的相关上市公司的财务数据，确定出各行业与财务数据造假相关的数据指标，并分析比较不同行业上市公司相关数据指标的异同。

2.根据附件 2 中制造业各上市公司的财务数据，确定出第 6 年财务数据造假的上市公司。

3.根据附件 2 中其他（除制造业外）各行业上市公司的财务数据，确定出第 6 年财务数据造假的上市公司。

可以看出数据特征的多行数较少训练加测试集只有两万多行而且很多特征是具有大量缺失的，所以后续需要将那些大量缺失值的特征删除或者填补。

除此之外还有一些的离散特征但是好多都是相同的可以根据方差大小进行处理

大量的线性特征，而且这些线性特征都是可以

因此有个大概的思路：

后续泰迪杯国奖思路分享(二)--数据清洗与特征构造 - 掘金 (juejin.cn)

有兴趣可以关注我的公众号里面会分享个人关于数据挖掘的一些学习笔记和想法