1.原始数据打乱列的目的是?
2.random_seed=70是原本的吗
设置随机种子是为了确保每次生成固定的随机数
3.pycharm中一个py文件导入另外一个py文件时出现红色波浪线解决
① 首先找到File---Settings---Console---Python Console,将Add source roots to PYTHONPATH打上勾
② 右键当前的文件目录找到Mark Directory as--Source Root,经过①②这两个步骤最终可以去除红色波浪线。
Sources Root:告诉idea这个文件夹及其子文件夹中包含源代码,是需要编译构建的一部分
Test Sources Root:测试源文件夹允许您将与测试相关的代码与生产代码分开。通常,源和测试源的编译结果被放置在不同的文件夹中。
Resources Root:用于应用程序中的资源文件(图像、各种配置XML和属性文件等)。 在构建过程中,资源文件夹的所有内容都复制到输出文件夹中,如下所示。 类似于源,您可以指定生成资源。您还可以指定输出文件夹中的文件夹,您的资源应该复制到
Test Resources Root:测试的资源文件
Exclued:不包括、排除
4.学习曲线( learning curve)
- 从数据的角度查看方差和偏差的关系
- 学习曲线的横轴是训练集数据的个数,纵轴是训练数据的交叉验证的评分结果(可以是误差、F1、或者AUC等),其实就是逐步增加样本个数来查看交叉验证的训练集的评分和测试集的评分。
- 基于交叉验证的训练集的评分和测试集的评分来判断,在样本量多少的时候,模型收敛了或者达到了稳定状态,亦或者模型在现有样本下无法收敛在一个稳定的指标上,或者总体的趋势是什么。
- 也可以知道在多少样本量的情况下模型存在过拟合的情况,或者太小的话会导致训练集无代表性,模型的复杂度太低,即欠拟合。