复试-机器学习

199 阅读3分钟

信息论中的互信息描述了什么?如何进行计算?请简要说明

信息量

事件概率越小,该事件信息量越大 比如:全年无雨,那么由于就是小概率,天气预报说无雨,相当于没信息,大家都知道,但是如果突然说有雨,那就是很重要的信息。

描述随机变量的混乱程度 = 不确定性 ,相当于股票波动越大,熵越大。
h(x)=plnph(x)=-\sum{plnp}

互信息

表示两个随机变量的依赖程度 = 已知X之后对Y不确定性的削弱程度 = 已知Y后对X不确定性的削弱程度。
比如X+Y=偶数,那我知道X后,Y的不确定性少一半。
一个随机变量的不确定性用熵衡量.

image.png

第一定义

I(X;Y)=H(X)H(XY)=X的不确定性已知Y之后X的不确定性=H(Y)H(YX)=Y的不确定性已知X之后Y的不确定性I(X;Y)=H(X)-H(X|Y)=X的不确定性-已知Y之后X的不确定性=H(Y)-H(Y|X)=Y的不确定性-已知X之后Y的不确定性

韦恩图定义

I(X;Y)=H(X)+H(Y)H(X,Y)I(X;Y)=H(X)+H(Y)-H(X,Y)

给定方阵A,其特征值和特征向量的定义是什么?特征向量的几何意义是什么?

Ax=λxAx=\lambda{x}
其中xx是特征向量,λ\lambda是特征值
特征向量就是经过线性变换之后方向不变的向量,特征值就是特征向量的放缩程度

贝叶斯公式

p(AiB)=p(BAi)p(Ai)p(BAj)p(Aj)p(A_{i}|B)=\frac{p(B|A_{i})p(A_i)}{\sum{p(B|A_{j})p(A_j)}}

后验概率

已知结果求过程,那就是贝叶斯啊

最大后验概率估计(令后验概率最大从而估计参数)

比如已知样本,求参数,maxp(θx)\max{p(\theta|x)}

image.png 你把log去掉你就看得懂了

极大似然估计(令似然函数最大从而估计参数)

  1. 已知分布求参数
  2. 似然函数=样本概率的累乘
  3. 要使似然函数最大
  4. 求ln
  5. 求导
  6. 令导数=0

请简要回答什么是矩阵的秩,并举例说明计算机视觉领域中如何应用矩阵的秩。

非零子式的最高阶数,由于像素之间的相关性,总是把图像当作低秩矩阵,然后进行图像重建。

高斯分布

就是正态分布
成绩

树和堆

树:不存在环的连通图。索引(排序树) 堆:特殊的树,大根堆,要求所有节点大于左右孩子,那么根的值会最大。用于排序。topk

chatGPT

Transformer+无监督预训练。
相对于传统的语言生成模型,采用可深度学习。并且语言生成市场广阔。

无监督

训练时有数据无标签
聚类(Kmeans),降维(PCA)

PCA

原理:将数据投影到其他维度上,使得投影后的方差最小 过程:对协方差矩阵求特征值和特征向量

协方差矩阵

Cov(X,Y)=E((XEX YEY)T(XEX YEY))Cov(X,Y)=E((X-EX\ Y-EY)^{T}(X-EX\ Y-EY))

决策树

  1. 根据熵进行划分
  2. 然后对子树进行迭代

范数

具有”长度“概念的函数 向量范数:L1=所有元素绝对值求和,L2=所有元素平方求和
矩阵范数:F范数=所有元素平方和开方

泊松分布

image.png

单位时间内随机事件发生的次数的概率分布,放射性原子核的衰变数

B+树

B+树是一种平衡的多路搜索树,用于数据库的索引,也就是树的应用

Batch Normalization的作用

加快收敛速度,分布椭圆形变圆形

过拟合

训练误差远小于测试误差,模型对训练样本效果较好

  1. 数据增广
  2. 减少训练量
  3. 正则化

线性模型

就是充当线性函数。 SVM

SVM

支持向量:离超平面最近的样本 思想:超平面,使支持向量离超平面的距离最大