首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
机器学习
waws520
创建于2021-05-15
订阅专栏
机器学习常见的算法的理论总结和实战经验分享
等 6 人订阅
共70篇文章
创建于2021-05-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
逻辑回归 - 损失函数(二)
linear_model.LogisticRegression 二元逻辑回归的损失函数 损失函数 衡量参数为$\Theta$的模型拟合训练集时产生的信息损失的大小,并以此衡量参数的优劣。 如果用一组参
逻辑回归 - 原理部分(一)
概述 名为“回归”的分类器 我们接触了不少带“回归”二字的算法,回归树,随机森林的回归,无一例外他们都是区别于分类算法们,用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,
降维算法PCA和SVD - 参数列表(五)
参数列表 n_components 整数,浮点数,None或输入字符串要保留的特征数量。若不填写,则保留的特征数量为数据最小维度min(X.shape) - 输入“mle"并且参数svd_solver
降维算法PCA和SVD - 手写数字案例(四)
PCA对手写数字数据集的降维 数据集结构为(42000, 784),用KNN跑一次半小时,得到准确率在96.6%上下,用随机森林跑一次12秒,准确率在93.8%,虽然KNN效果好,但由于数据量太大,K
降维算法PCA和SVD - 属性和重要接口(三)
属性components_ 现在我们了解了,V(k,n)是新特征空间,是我们要将原始数据进行映射的那些新特征向量组成的矩阵。我们用它来计算新的特征矩阵,但我们希望获取的毕竟是X_dr,为什么我们要把V
降维算法PCA和SVD - 参数(二)
参数 n_components 含义 降维后需要的维度 即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。 属于超参数 会影响到模型
降维算法PCA和SVD - 原理部分(一)
“维度” 对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。 索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数),有行列之分
数据预处理与特征工程总结 - 特征选择 - 嵌入法和包装法(五)
Embedded嵌入法 嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行 在使用嵌入法时, 先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到
数据预处理与特征工程总结 - 特征选择 - 过滤法(四)
特征选择 feature_selection 特征提取(feature extraction) 特征创造(feature creation) 特征选择(feature selection) 从文字,图
数据预处理与特征工程总结 - 分类型特征和连续型特征(三)
分类型特征:编码与哑变量 在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fit的
数据预处理与特征工程总结 - 缺失值(二)
缺失值 数据预处理中非常重要的一项就是处理缺失值 在这里,我们使用从泰坦尼克号提取出来的数据,这个数据有三个特征,一个数值型,两个字符型,标签也是字符型。从这里开始,我们就使用这个数据给大家作为例子,
数据预处理与特征工程总结 - 归一化和标准化(一)
数据预处理与特征工程 sklearn中的数据预处理和特征工程 数据预处理 Preprocessing & Impute 数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,
随机森林总结 - 参数列表(五)
Bagging vs Boosting 装袋法 Bagging 提升法 Boosting 评估器 相互独立,同时运行 相互关联,按顺序依次构建,后建的模型会在先建模型预 测失败的样本上有更多的权重 抽
随机森林总结 - 机器学习中调参的基本思想(四)
机器学习中调参的基本思想 画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价可能是训练一次模型要跑三天三夜),高手调参恐怕还是多依赖于经验,而这些经验,来源于: 非常正确的调参思路和方法 对模型评
随机森林总结 - RandomForestRegressor填充缺失值(三)
用随机森林回归填补缺失值 我们从现实中收集的数据,几乎不可能是完美无缺的,往往都会有一些缺失值。面对缺失值,很多人选择的方式是直接将含有缺失值的样本删除,这是一种有效的方法,但是有时候填补缺失值会比直
随机森林总结 - RandomForestRegressor(二)
随机森林总结 - RandomForestRegressor(二) RandomForestRegressor 重要参数 criterion 回归树衡量分枝质量的指标,支持的标准有三种: 输入mse使
随机森林总结 - RandomForestClassifier(一)
集成学习 集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都
决策树总结 - 决策树实战报告(八)
算法 编程实现一个基于信息熵进行划分选择的决策树算法,并为表中的数据生成一棵决策树。 编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697
决策树总结 - 决策树Gini系数计算过程详细解答(七)
决策树Gini系数计算过程详细解答 An algorithm can be transparent only if its decisions can be read and understood b
决策树总结 - 归纳总结决策树的ID3,C4.5和CART的构建过程(六)
ID3公共部分代码解读: 信息熵 信息熵的计算公式是: 我们将数据集进行手记,然后取出最后一位标签进行分类计数,假设0类5个,1类7个,对于这个的信息熵是 划分数据集 这个部分是我们假设一个特征有0,
下一页