首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
与星空随行
掘友等级
大数据与人工智能研究
网络流量、异常检测、入侵检测等
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
27
文章 27
沸点 0
赞
27
返回
|
搜索文章
最新
热门
机器学习的采样
采样就是从特定的概率分布中抽取相应样本点的过程。采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地后期的模型学习;可以用于随机模拟以进行复杂模型的近似求解或推理。另外,采样在数据可视化方面帮助人们快速、直观地了解数据的…
机器学习中的优化方法
我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业都需要考虑自己的业务问题,并不是一个算法可以在所有的业务和数据上面都能起到好的效果,个人的喜爱和思考都会存在差异性,现在要考虑的一个问题是“在一定成本下,如何使利润最大化,效果最优化”等。最优化方法是一种…
机器学习中的损失函数
通常机器学习每一个算法中都会有一个目标函数,算法的求解过程是通过对这个目标函数优化的过程。在分类或者回归问题中,通常使用损失函数(代价函数)作为其目标函数。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的算法使用的损失函数不一样。 损失…
常见分布
分布可以分为连续分布和离散分布。 常见的离散型随机变量的分布有单点分布、两点分布、二项分布、几何分布、负二项分布、超几何分布、泊松分布等. 正态分布又叫高斯分布,是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。 正态分布…
如何评估两个非监督学习算法的优劣
以中心定义的数据簇:这类数据集合倾向于球形分布,通常中心被定义为质心,即此数据簇中所有点的平均值。集合中的数据到中心的距离相比到其它簇中心的距离更近; 以密度定义的数据簇:这类数据集合呈现和周围数据簇明显不同的密度,或稠密或稀疏。当数据簇不规则或互相盘绕,并且有噪声和离群点时,…
特征选择时,应该如何考虑
特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。 Filter:过滤法,按照发散…
PCA与LDA的介绍
在machine learning领域,PCA和LDA都可以看成是数据降维的一种方式。 直观看:投影后的投影值尽可能分散。(方差) 从PCA和LDA的计算过程来看,最后其实都是在求某一个矩阵的特征值,投影矩阵即为该特征值对应的特征向量。 2.PCA希望投影后的数据方差尽可能的大…
线性回归与逻辑回归的区别
线性回归中采用平方和的形式,一般都是由模型条件概率的最大似然函数 概率积最大值,求导,推导出来的。 损失函数越小,模型就越好,而且损失函数 尽量 是一个凸函数,便于收敛计算。 线性回归,采用的是平方损失函数。而逻辑回归采用的是对数损失函数。 逻辑回归的模型是一个非线性模型,采用…
Word2vec介绍
one-hot编码存在维度灾难和语义鸿沟的问题。 维度灾难是one-hot的向量维度和词库大小一致。one-hot表示的向量维度很大,使得数据样本稀疏,距离计算困难,造成维度灾难,样本的特征过于多,导致模型学习过程中容易发生过拟合。 语义鸿沟是因为one-hot生成的词向量都是…
个人成就
文章被点赞
39
文章被阅读
28,334
掘力值
763
关注了
1
关注者
6
收藏集
0
关注标签
50
加入于
2021-02-22