1.为什么要对特征做归一化(理解清楚特征归一化所适用的模型场景)
2.什么是组合特征?如何处理高维组合特征?(这里的特征组合主要指的是类别特征(Categorical Feature)之间的组合)
3.请比较欧式距离与曼哈顿距离?(比较曼哈顿距离和欧式距离的数值特点,并结合一两个具体例子做分析)
4.为什么一些场景中使用余弦相似度而不是欧式距离(比较余弦相似度和欧式距离的数值特点,并结合一两个具体例子做分析)
5One-hot的作用是什么?为什么不直接使用数字作为表示(理解清楚并比较One-hot编码和数字编码的特点)
One-hot 主要用来编码类别特征,即采用哑变量(dummy variables) 对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。直接使用数字会给将人工误差而导致的假设引入到类别特征中,比如类别之间的大小关系,以及差异关系等等。
6.在模型评估过程中,过拟合和欠拟合具体指什么现象(如何描述这两个现象)
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合时,偏差较小但方差较大。
12
7.降低过拟合和欠拟合的方法(从多个维度来考虑,比如数据,特征,模型,目标函数等等)
8.L1和L2正则先验分别服从什么分布(可根据L1和L2正则项的数学表达式的形式来分析)
L1相当于加入了拉普拉斯分布
L2是高斯分布
L1 的分布容易使得 目标函数只与有限的 L1限制函数在“棱角”上产生交集。这就过滤掉了大部分的解。而L2可能的解就更多。
此处有错误x应为w
9.对于树形结构为什么不需要归一化?(理解清楚特征归一化所适用的模型场景)
决策树的学习过程本质上是选择合适的特征,分裂并构建树节点的过程;而分裂节点的标准是由树构建前后的信息增益,信息增益比以及基尼系数等指标决定的。这些指标与当前特征值的大小本身并无关系。
10.什么是数据不平衡,如何解决?(理解数据不平衡会给模型训练带来什么影响)
11.逻辑回归相比线性回归,有何异同?(从作用和数学表达式出发来理解它们之间的异同)
12.回归问题常用的性能度量指标(归类总结)
13.分类问题常用的性能度量指标(归类总结)
14.逻辑回归的损失函数(从极大似然函数出发推导)
15.逻辑回归处理多标签分类问题时,一般怎么做?(分类讨论多标签之间是否为有互斥关系)
16.什么是集成学习算法?(可使用抽象概括和形象类比共同描述)
17.集成学习主要有哪几种框架, 并简述它们的工作过程?(注意比较数据处理方法和模型集成方法的异同)
第二题第二行答案输入错误。Stacking 是异质的,Boosting 是同质的。
18.Boosting算法有哪两类,它们之间的区别是什么?(比较两个算法的学习过程)
19.什么是偏差和方差?(可从抽象定义和直观描述两个维度来理解)
20.为什么说Bagging可以减少弱分类器的方差,而Boosting 可以减少弱分类器的偏差?(可从公式推理和直观描述两个维度来理解)
21.简述一下随机森林算法的原理(数据,模型和学习过程)
22.随机森林的随机性体现在哪里?(根据算法流程来理解)
23.随机森林算法的优缺点?(从训练,效果,特征等多个维度进行分析)
24.随机森林为什么不能用全样本去训练m棵决策树?(根据算法流程来理解)
25.随机森林和GBDT的区别?(从框架,数据,基模型等多个维度进行比较)
26.简述GBDT原理。(从宏观层面去理解)
27.GBDT常用损失函数有哪些?(从分类任务和回归任务两个方面去分析)
28.GBDT如何用于分类?(损失函数的修改)
29.为什么GBDT不适合使用高维稀疏特征?(从树的节点分裂方法来考虑)
30.GBDT算法的优缺点?(从计算效率,数据适用和健壮性等多个方面来分析)
31.简述XGBoost。(XGBoost 的定位)
32.XGBoost和GBDT有什么不同?(从工程优化的角度去考虑)
33.XGBoost为什么可以并行训练?(理解在哪个层面上做的并行)
34.XGBoost防止过拟合的方法?(从数据,模型和正则化三个方面来考虑)
35.XGboost为什么这么快?(从工程优化的角度去考虑)
36.简述kmeans流程(思考流程中存在的缺陷和可以改进的策略)
37.kmeans对异常值是否敏感?为何?(对照流程,思考异常值可能会影响哪个步骤)
38.如何评估聚类效果(直观思考决定聚类算法好坏的标准,然后再确定评价方法)
39.超参数k如何选择?(从业务,数据和算法三个维度来考量)
40.kmeans算法的优缺点(从计算复杂度,聚类效果评估等等维度来考虑)
41.请简述SVM 原理(分情况讨论,有线性可分与线性不可分的情况)
42.SVM 为什么采用间隔最大化(从最优值和鲁棒性两个方面分析)
43.SVM 为什么要引入 核函数(分析线性不可分情形)
44.SVM 核函数之间的区别(不同核函数所适用的数据情形)
45.为什么SVM对缺失数据敏感(缺失值会对SVM模型训练造成什么影响)
46.SVM算法的优缺点(从SVM适用情形,样本和特征的适用性来分析)
47.SVM的超参数C如何调节(理解C这个参数作为优化目标函数中哪一项的权重)
48.SVM的核函数如何选择(对核函数的宏观理解)
49.简述SVM硬间隔推导过程(理解什么是硬间隔)
50.简述SVM软间隔推导过程(理解什么是软间隔)