基于大数据的 EPR 精准评分模型和电影票房预测模型

512 阅读2分钟

小组分享

我学习了决策树、随机森林分类juejin.cn/post/685041…

  • 决策树原理、可运行的决策树代码(matlab)
  • 随机森林就是多个决策树进行分类,然后取众数,代码无法成功运行,但是应该可以将决策树代码简单修改一下就能实现随机森林
  • 决策树回归代码可运行

学习了支持向量机分类和回归 juejin.cn/post/685457…

bp神经网络进行分类/回归很简单,直接使用matlab的神经网络工具箱导入数据训练即可

模型分析

问题一: 给出电影评分模型

折衷型模糊多属性算法量化等级指标,ABCD等级->数据

投影寻踪评价算法(类似Topsis算法),得出指标的评分;感觉投影寻踪评价算法就和主成分分析法用来评分一样,不太好,降维会损失数据,不如直接用全部数据来评分,如Topsis算法

问题二: 豆瓣 TOP50 电影和 IMDB 的 TOP50 电影有很多相同也有很多不同的电影,请基于你们的 分析,给出影响两者排名不同的具体因素

以网站评分为因变量,以问题一得到的八个指标为自变量,求解Y和X的相关系数

问题三:票房预测模型

SVM支持向量机(用来分类)

  • 划分超平面,和fisher线性判别类似,SVM是非线性判别,fisher是线性判别
  • fisher 能分的数据基本上人肉眼大概也可以看出来,大致在一个平面上,但是SVM的优势在于处理数据量较少的高维数据,通过将原本在平面上难以区分的数据,投到多个平面上进行空间上的划分
  • 判别、分类以及回归分析有很多的应用

SVR支持向量机回归

BP 神经网络

随机森林

将数据分为训练集和测试集,分别用于三种预测算法,随机森林在测试集变现最好

并且使用k折交叉验证对测试集进行验证,排除样本过拟合的情况。

鲁棒性分析

  • 指标的显著性分析
  • 更改单个指标是否会导致模型的某些不确定变化(敏感性分析)