信息论中的互信息描述了什么?如何进行计算?请简要说明
信息量
事件概率越小,该事件信息量越大 比如:全年无雨,那么由于就是小概率,天气预报说无雨,相当于没信息,大家都知道,但是如果突然说有雨,那就是很重要的信息。
熵
描述随机变量的混乱程度 = 不确定性 ,相当于股票波动越大,熵越大。
互信息
表示两个随机变量的依赖程度 = 已知X之后对Y不确定性的削弱程度 = 已知Y后对X不确定性的削弱程度。
比如X+Y=偶数,那我知道X后,Y的不确定性少一半。
一个随机变量的不确定性用熵衡量.
第一定义
韦恩图定义
给定方阵A,其特征值和特征向量的定义是什么?特征向量的几何意义是什么?
其中是特征向量,是特征值
特征向量就是经过线性变换之后方向不变的向量,特征值就是特征向量的放缩程度
贝叶斯公式
后验概率
已知结果求过程,那就是贝叶斯啊
最大后验概率估计(令后验概率最大从而估计参数)
比如已知样本,求参数,
你把log去掉你就看得懂了
极大似然估计(令似然函数最大从而估计参数)
- 已知分布求参数
- 似然函数=样本概率的累乘
- 要使似然函数最大
- 求ln
- 求导
- 令导数=0
请简要回答什么是矩阵的秩,并举例说明计算机视觉领域中如何应用矩阵的秩。
非零子式的最高阶数,由于像素之间的相关性,总是把图像当作低秩矩阵,然后进行图像重建。
高斯分布
就是正态分布
成绩
树和堆
树:不存在环的连通图。索引(排序树) 堆:特殊的树,大根堆,要求所有节点大于左右孩子,那么根的值会最大。用于排序。topk
chatGPT
Transformer+无监督预训练。
相对于传统的语言生成模型,采用可深度学习。并且语言生成市场广阔。
无监督
训练时有数据无标签
聚类(Kmeans),降维(PCA)
PCA
原理:将数据投影到其他维度上,使得投影后的方差最小 过程:对协方差矩阵求特征值和特征向量
协方差矩阵
决策树
- 根据熵进行划分
- 然后对子树进行迭代
范数
具有”长度“概念的函数
向量范数:L1=所有元素绝对值求和,L2=所有元素平方求和
矩阵范数:F范数=所有元素平方和开方
泊松分布
单位时间内随机事件发生的次数的概率分布,放射性原子核的衰变数
B+树
B+树是一种平衡的多路搜索树,用于数据库的索引,也就是树的应用
Batch Normalization的作用
加快收敛速度,分布椭圆形变圆形
过拟合
训练误差远小于测试误差,模型对训练样本效果较好
- 数据增广
- 减少训练量
- 正则化
线性模型
就是充当线性函数。 SVM
SVM
支持向量:离超平面最近的样本 思想:超平面,使支持向量离超平面的距离最大