Datawale组队学习17期——Task4 建模与调参

237 阅读2分钟

这次的task是进行建模和调参,具体来说,就是通过对比各种模型以及模型的评价和调参策略来进行建模和调参。

首先,了解一下逻辑回归:

逻辑回归通过y=sigmoid(wx+b)进行预测,其中w和b是需要在模型训练时进行学习的参数,而逻辑回归在训练时的目标函数,即损失函数为cross-entropy,形如loss=y_hat log y + (1-y_hat) log(1-y)。逻辑回归如果去掉sigmoid,那么就只是得到线性的输出,完全不适合用于分类。而使用了sigmoid函数,配合cross-entropy达到了基于类别进行优化的效果,逻辑回归可以很好地进行分类,很好地拟合数据。

逻辑回归常用于大规模数据下的分类,尤其是工业上,这种简单直接的模型往往才是最有用的。

逻辑回归也有它的缺点:首先是如果想要拟合非线性的情况,需要构造分线性特征,这个过程繁琐且不可预测;其次是逻辑回归模型太简单,表达能力不强,尤其是在非结构化数据上。

接着,了解一下树模型:

当我们把一颗树倒着放时,顶部是根结点,底部是越来越大庞大的叶结点群,那么在根结点是一簇数据,在它的叶结点就可以进行划分,按照某种标准划分成几路的数据,依次类推,在叶结点就可以得到决策树分类的结果。

决策树的优点是:表达力非常强,研究多,集成学习时效果很好;

决策树的缺点是:容易造成过拟合,有很多超参数需要调试。

在进行模型的评估时,我们需要对数据进行划分,在测试数据上进行评估。