关于模型三步骤的一种解释

step1：模型假设，选择模型框架（线性模型）
step2：模型评估，如何判断众多模型的好坏（损失函数）
step3：模型优化，如何筛选最优的模型（梯度下降） ps 另一种类似的说法叫做：机器学习的三要素：模型、策略、算法

关于过拟合问题的一种理解

对于过拟合的理解，除了给出比较常见的解释如下图

李宏毅老师还给出了一个我认为比较有意思的角度：函数空间。

如下图：

假设黄色这个圈圈代表这一个式子，有考虑三次项的式子，所形成的function space函数空间。那四次项的式子所形成的function space就是这个绿色的圈圈，它是包含黄色圈圈的。这个事情很合理，因为你只要把w4设为0，四次项的这个式子就可以变成三次的式子。所以三次的式子都包含在这个四次的式子里面，黄色的圈圈都包含在绿色的圈圈里面。那如果我们今天考虑更复杂的五次的式子的话，它又可以包含所有四次的式子。所以今天如果你有一个越复杂的model，它包含了越多的function的话，那理论上你就可以找出一个function，它可以让你的error rate越来越低。你的function如果越复杂，你的candidate如果越多，你当然可以找到一个function，让你的error rate越来越低。当然前提就是，你的gradient descent梯度下降要能够真正帮你找出best function。

@ml67 关于函数空间的通俗解释

简单来说函数空间就是：满足给定条件的函数的集合（这里的空间是数学中的Space含义，并未物理意义上的空间，时间这种概念的空间）；但更准确的，空间的概念是在集合上的更进一步，定义了元素的一些运算。

比如：要求拟合的函数形式是 y=ax^2+bx+c，a b c 为实数 (这就定义了一个函数空间), 那么y =3x^2+ 2x+1, y=0x^2+0x+3=3, y=0x^2+5x+0=5x 这样这些函数都满足这个条件，由所有满足给定条件的函数组成的集合就是这个函数空间，再比如这个例子里 y=2x^3+1就不属于这个函数空间（不满足定义的形式）。

我自己的通俗理解：越复杂的model，包含越多的函数，也就是函数空间越大，所以就越有可能在训练数据中拟合出一个最佳函数f。但是这个函数f的位置可能是在真实最佳函数f0的函数空间的外围。所以f不是真正要找最佳函数f0，它只是对训练数据过拟合了。

关于模型合并的问题

李宏毅老师给出了一个例子。将Pokemons种类通过颜色区分，就会发现Pokemons种类是隐藏得比较深得特征，不同Pokemons种类影响了进化后的CP值的结果。

针对3个物种分别建立了模型，取得了更好的效果。

联系生产的场景，有启发也有疑惑，所以迟点再补充内容。

李宏毅机器学习笔记

关于模型三步骤的一种解释

关于过拟合问题的一种理解

关于模型合并的问题