首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
机器学习
Forlogen
创建于2021-07-05
订阅专栏
机器学习算法和实践
等 1 人订阅
共93篇文章
创建于2021-07-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
GBDT梯度提升树
简单来说,绝大多数的机器学习算法都在处理两个因素:模型(model)和目标函数(objective function)或是损失函数(loss function),通常模型又由它所拥有的参数向量表示。在得到具体的训练数据和模型后,机器学习所做的就是根据当前数据来学习它所满足的条件概...
Stanford机器学习-Linear Regressioon with One Variable(2)
如图所示,现有显示的有四条数据,我们假设函数 ,那么两个参数该如何选择呢,这就是我们要做的工作。下面我们来对这两个参数取一些值来看看具体是什么情况。当取不同的参数时,所画出的线各不一样,那么那一条更好呢?这就引出了一个所谓的代价的问题,也就是我们通过训练集所得出的模型来预测的数值...
林轩田机器学习技法第五讲-Kernel Logistic Regression
上一讲学习了Soft-Margin Support Vector Machine,至此基本的支持向量机就介绍完了。具体再来看一下Soft-Margin SVM的内容,我们用ξn来表示允许分错的程度,在图像中表示为距离直线的距离,ξn=0表示没有犯错,ξn>0表示有错。那么对于任意...
使用sklearn.preprocessing做数据预处理
scikit-learn的preprocessing模块提供了多种用于数据预处理的类,它们可以用于数据的标准化、正则化、缺失数据的填补、类别特征的编码以及自定义数据转换等,sklearn.数据标准化是一项十分重要的工作,尤其是对于目前的有监督学习而言,尽管模型的复杂度越高会使得模...
Expectation Maximisation (EM)
转眼三月也过了一周了,目前看来经过全国人民的无私奉献和医务工作者的辛勤付出,疫情得到了初步的控制。最近几天每天的新增确诊病例除武汉外已经几乎没有了,新增的也是输入型病例,而且武汉本身的每日新增数目也下降到了三四百左右,此外每天的治愈人数仍稳定保持在几千例,一切都在慢慢的变好。感谢...
Hierarchical Clustering
层次聚类试图在不同的层次上对数据集进行划分,从而形成树形的聚类结构。最开始时每个样本都是一个单独的簇,然后在每一次迭代中合并两个距离最近的簇为一个簇,不断进行此类操作,直到簇的个数到达预先设定的值。AGNES算法中最关键的问题是簇之间的距离度量,因为簇是样本的集合,所以簇之间距离...
Density-based Clustering
密度聚类即"“基于密度的聚类”,它基于这样一个假设:聚类结构能通过样本分布的紧密程度确定。K值的设置,当面对于簇个数未知的数据,以及数据流形的形状不规则时,k-means以及相应的改进算法就难以取得理想的效果。均值移动聚类算法:它是一种滑动窗口类型的算法,帮助找到密集区域的数据点...
NCA(Neighborhood Components Analysis)
NCA是Jacob Goldberger和Sam Roweis等发表于2014年的NIPS上同名文章Neighborhood Components Analysis中的工作。之前在KNN算法的学习中提到,KNN算法两个很重要的问题表示K值的选择和距离度量方式的选择。其中K值可以通...
模型的偏差、方差分析
下面我们通过一个例子具体看一下:假设靶的中心是样本的真实值,左图镖的位置距离中心远,表示偏差大,但是位置相对集中,则方差较小;右图镖的位置相对左图距离中心更近,表示偏差较小,但是位置分散,表示方差较大。相对于前面的公式表示,我们用图像化表示后就可以很直观的看到偏差、方差和噪声的情...
林轩田机器学习技法课程第十三讲-Deep Learning
这一讲的是对Deep Learning这个热门方向的一个介绍,虽然很多知识在现在看起来有点老了,但还是有很多的启发意义。tanh ,输出层为线性输出。x0i=1 。其中每一个的隐藏层负责从输入的数据中来发现某些有趣的东西,或说是有关数据的某种模式。那么在设计神经网络的时候,我们...
贝叶斯信念网络
P(Y∣X),这时就要借助贝叶斯公式来换个方向继续求解。朴素贝叶斯算法是一种生成式方法,基于上面的贝叶斯定理和特征条件独立假设,广泛的用于一些分类问题。...P(Y=c_{k}),k=1,2,...P(Y=ck),k=1,2,......P(X=x|Y=c_{k})=P(X^{...
如何理解生成模型和判别模型
Generative vs. 如何理解生成模型和判别模型呢,我们以生活中的一个实例来看一下,我们如何来判断一个人所讲的语言呢?如果我们详细的学习了所有语言相关的内容,当听到一个人所讲的话时,就可以决定它是属于哪一种,这样的做法就是生成式方法;而如果我们并没有仔细的学习每一门语言,...
决策树(Decision Tree)算法探析
决策树是一种很常用也是很有效的分类和回归方法,因为在构建树的过程中需要使用数据的类标签,所以是一种有监督的学习,常见的是二叉树的结构,也有非二叉树的结构。其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点存放一个类标号。决策树的本质是从训练数据集中归纳出...
频繁模式增长算法(FP-growth)
FP-growth算法的提出,就很好的解决了在产生候选项集过程中巨大的开销。首先,将代表频繁项集的数据库压缩到一棵频繁模式树(FP-Tree)然后把这种压缩后的数据库划分成一组条件数据库,每个数据库关联一个频繁项或“模式段”,并分别挖掘每个条件数据库。随着被考察模式的“增长”,这...
重新理解梯度下降法(Gradient Descent)及其相关优化方法
梯度下降法广泛的应用在无约束优化问题的求解中,比如线性回归、神经网络等等。之前在学习Stanford机器学习-Linear Regressioon with One Variable(3)时对于梯度下降有了初步的理解,但是对于梯度下降法的多种类型,以及背后的数学原理理解的并不是很...
学习矢量量化(Learning Vector Quantization, LVQ)
学习矢量量化(Learning Vector Quantization,LVQ),是一种用于模式分类的有监督的学习算法,也是一种结构简单、功能强大的有监督的神经网络分类算法。主要的类型有LVQ1、LVQ2、LVQ3,其中LVQ2的应用最广。它通过在自动学习的过程中进行及时的微调,...
如何提高机器学习模型的可解释性
随着机器学习的发展,不同的算法纷纷涌现,特别是现在很热的深度学习,不同的神经网络模型在图像识别、语音识别、自然语言处理等方面都已经取得了一定的成果。但是模型的效果往往是以牺牲模型的可解释性为代价的,在深度学习中网络模型越来越复杂,导致了它的解释性很差,我们很难向不是太了解相关方面...
Apriori算法
在如今大数据的时代,我们可以获取到的数据量很大很大,但是更多情况下它们只是数据,存储在了某个地方。如何从中获取到一些有价值的东西,成为一个很迫切的需求。比如各大电商网站每天都会收集到很多用户大量的购物数据,如果从中能知道用户的购物习惯,就可以为他们推荐更合适的商品,从而提高收益;...
主成分分析(Principal Component Analysis,PCA)
维度诅咒是指当数据集的维度增加时,数据将变得极其稀疏,使得对于聚类、离群点分析等关心的关于两点的距离、密度等信息变得失去意义,而且子空间的组合也会呈指数增长。如果我们在一个单位平面(1*1的正方形)中随机选择一个点,它距离边界的距离小于0.001的概率只有大约0.4%;但是在一个...
奇异值分解(SVD)
n∗n的矩阵,λ是A的一个特征值,x为A对应λ的特征向量。根据求出的特征值和特征向量,我们就可以将矩阵A分解,将其表达为另一种形式。w1,w2,……,wn。n∗n的矩阵。WT=W−1将其称为酉矩阵。比如在之前的线性回归算法中,如果X是这样的方阵,我们就可以求出它的闭式解。但是如果...
下一页