2022年数学建模国赛C题——第一问&&第二问

369 阅读4分钟

引言

本篇文章将具体讲解笔者是如何复现2022年国赛c题的,下面是题目

📎C题.pdf

正文

第一问

首先我们需要明确第一问的问题:

这里实际上是三个问题:即分析文物的表面风化和玻璃类型、纹饰、颜色之间的关系,结合玻璃类型分析文物样品表面有无风化化学成分含量的统计规律,预测未被风化前的化学成分含量。

对于第一个问题,我们可以打开数据,可以看到了,里面的数据都是分类数据没有具体数值:

因此我们可以选择卡方检验,那么什么是卡方检验呢?让我们看一下定义:

卡方检验下面还有三种类型需要选择:Pearson卡方检验、Yates校正卡方检验、Fisher精确检验

他们的区别见下:

因此我首先使用SPSS进行分析,可以看到风化和纹饰应该使用Yates检验,风化和类型应该使用Pearson检验、风化和颜色应该使用Fisher精确检验。根据分析可以在SPSSPRO中使用对应方法(在使用Fisher精确检验时无法使用,原因在于数据不是二分类的,因此选择Yates检验,可以看到其实这个数据也是符合Yates检验的),可以得出:

所谓的有显著性差异其实就是有相关关系或者就是相关性显著,这点看下图分析:

第二问使用单因素方差分析,作用也见下:

使用方差分析之前需要保证数据符合正态分布,这里我们可以直接使用SPSSPRO进行单因素方差分析,结果里面会自动给我们做好正态分布分析,

最后可以看到都是符合正态分布或者基本符合,然后我们再看Levene检验,这里的目的是看是不是符合方差齐性,其实不满足也没什么,后面也给出了不满足应该看什么以及结论:

最后一问的预测可以看做是正态分布的复原,我们可以在第二问得到1各元素的风化前后满足正态分布的均值和标准差:

然后以此可以对每个元素画出两个正态函数,以SiO2为例:

我们知道一个文物风化之后的SiO2含量,那么我们就可以以此为x,知道函数对应的f(x),然后就可以在另一个正态函数中找到一个新x,这样就实现了复原,即实现了预测。

第二问

首先我们需要明确第二问的问题: 这实际上是三个问题:即分析高钾玻璃和铅钡玻璃的分类规律、对每个类别再细化分类、对分类结果的合理性和敏感性进行分析。

对于第一问,我们首先可以对表单二和表单一进行一个合并处理,处理完的数据见下图,我把完整数据放在附件中:

📎附件.xlsx

然后我们对这些数据做Spearman相关性分析:

我们保留和类型相关性较强的数据,即有显著性那里带星号的,这样就留下了7种元素:二氧化硅(SiO2)、氧化钾(K2O)、氧化铝(Al2O3)、氧化铁(Fe2O3)、氧化铅(PbO)、氧化钡(BaO)、氧化锶(SrO)

然后我们把这7个作为自变量,玻璃类型作为因变量进行二元Logistic回归:

根据运行出来的结果可以获得因变量和自变量的公式,然后看这个检验,P>0.05,视为模型建立良好。

然后我们可以把这个系数画个图,看看那个影响最大,然后再看表单中的数据,结合实际情况说一下就行。

至此第一问解决。

第二问使用K-means++进行聚类,首先我们使用系统聚类,根据他的系数画出对应的肘部法则:

根据上图可以选择分为3类(4类也可)。

最后我们需要对模型的合理性和敏感性进行分析,这里可以对刚分类的数据使用多元logistic回归,通过准确率达到一定程度即可说明合理性和敏感性可以。也可以仅使用文字说一下聚类中心,通过解释分类依据说明合理性和敏感性可以。也可以使用更严谨的方法,即专门用来检验合理性和敏感性的方法,这里不在过多赘述。

结语

至此,第一问&&第二问的求解就复现完成了,希望这篇文章可以帮到大家,如有疑惑,欢迎留言!