首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
scikit-learn
databook
创建于2023-09-22
订阅专栏
scikit-learn库的基本使用方法
等 22 人订阅
共65篇文章
创建于2023-09-22
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
规则学习:让机器学习像人类一样思考的可解释之路
在机器学习领域,规则学习是一颗独特的明珠--它不像深度学习那样神秘,而是用人类可读的**"如果-那么"**规则来做出决策。 想象一下医生通过一系列症状判断疾病,或者风控系统根据用户行为拒绝贷款,规则学
概率图模型:机器学习的结构化概率之道
当复杂世界的不确定性遇上图的结构化表达,概率图模型应运而生。 它可以帮助我们理解和建模变量之间的复杂关系。 想象一下,你正在尝试预测明天的天气,你需要考虑温度、湿度、气压等多种因素,这些因素之间存在着
当机器学习遇见压缩感知:用少量数据重建完整世界
在数据处理的世界里,我们常常会遇到这样的问题:数据量太大,存储和传输成本高昂,但又不能丢失重要信息。 这时候,压缩感知(Compressive Sensing,CS)就像一位神奇的“数据魔法师”,能够
稀疏表示与字典学习:让数据“瘦身”的魔法
在机器学习的世界里,我们常常会遇到各种复杂的数据,它们可能包含大量的特征,但其中真正有用的信息却很少。 这就像是在一个杂乱无章的房间里,我们只需要找到那些真正重要的物品,而忽略掉那些无关紧要的杂物。
机器学习中的"食材挑选术":特征选择方法
想象你要做一道美食,面对琳琅满目的食材,优秀的厨师不会把所有原料都扔进锅里,而是会选择最适合的几种。 在机器学习中,特征选择就是这个挑选过程,从原始数据中选择对预测目标最有用的特征(列),就像挑选优质
度量学习:让机器学会“距离”的奥秘
度量学习是一种神奇的机器学习技术,它的核心目标就是教会机器如何更好地衡量不同数据点之间的 “距离”。 在我们日常生活中,距离这个概念很直观,比如两点之间的直线距离。 但在机器学习的世界里,数据通常是高
降维技术:带你走进数据的“瘦身”世界
在机器学习和数据分析中,数据的维度常常是一个让人头疼的问题。 想象一下,你面前有一张包含成千上万列特征的表格,每一列都可能是一个重要的信息源,但同时也会让计算变得异常复杂。 这时候,降维技术就派上用场
不同数据场景下的聚类算法
在数据分析和机器学习领域,聚类是一种非常重要的无监督学习方法,它可以帮助我们发现数据中的内在结构,将相似的数据点分组到一起。 本文将介绍几种常见的聚类算法,包括原型聚类(如 k-均值、学习向量量化、高
聚类是如何度量数据间的“远近”的?
在聚类分析中,距离度量是核心概念之一,它决定了数据点之间的相似性或差异性,从而影响聚类结果的质量。 选择合适的距离度量方法,就像为数据选择合适的**“观察视角”**,能够帮助我们发现隐藏的模式结构。
你的聚类模型靠谱吗?5大外部指标彻底揭秘
在聚类分析中,我们常常需要评估聚类结果的质量。 外部指标是一种通过与已知的“真实标签”进行比较来评估聚类性能的方法。 这些指标可以帮助我们判断聚类算法是否能够准确地将数据划分为有意义的类别。 本文将介
同样的数据,更强的效果:如何让模型学会‘互补思维’?
集成学习虽然能够通过组合多个学习器来提高预测性能,然而,如果这些学习器过于相似,集成的效果可能并不理想。 因此,增强学习器的多样性是提升集成学习性能的关键。 多样性带来的优势在于: 群体智慧原理:多样
集成学习中的多样性密码:量化学习器的多样性
在集成学习中,多样性是一个关键概念,简单来说,多样性衡量的是各个学习器之间的差异程度。 如果学习器之间差异很大,那么它们的组合就更有可能覆盖更多的情况,从而提高集成模型的性能, 就像足球队需要不同位置
集成学习常用组合策略:让多个模型“合作”得更好
集成学习通过组合多个学习器的预测结果,达到超越单个学习器的效果。 就像医生会诊时综合多位专家的意见,集成学习的关键在于如何有效整合不同学习器的判断。 这些学习器可以是不同类型的模型,比如决策树、支持向
集成学习双雄:Boosting和Bagging简介
在机器学习的世界里,集成学习(Ensemble Learning)是一种强大的技术,它通过组合多个模型来提高预测性能。 集成学习通过组合多个基学习器的预测结果,获得比单一模型更优秀的性能。其核心思想是
从“朴素”到“半朴素”:贝叶斯分类器的进阶之路
在机器学习分类任务中,朴素贝叶斯(Naive Bayes)因其简单高效而广受欢迎,但它的**“朴素”**之名也暗示了其局限性。 为了突破这一局限,半朴素贝叶斯(Semi-Naive Bayes) 应运
极大似然估计:频率学派与贝叶斯学派的碰撞与融合
在统计学的世界里,参数估计一直是数据分析的核心任务之一。 极大似然估计(MLE)作为一种经典的参数估计方法,被广泛应用于各种领域。 然而,极大似然估计并非只有一种实现方式,它在频率学派和贝叶斯学派中有
软间隔:让支持向量机更“宽容”
在SVM中,软间隔是一个重要的概念,它允许模型在一定程度上容忍误分类,从而提高模型的泛化能力。 本文将详细介绍软间隔的定义、与硬间隔的区别、损失函数的作用,最后使用 scikit-learn 进行实际
核函数:让支持向量机从“青铜”变“王者”
在机器学习领域,支持向量机(SVM)是一种强大的分类算法,而核函数则是其核心组件之一。 核函数的本质是一个「空间映射工具」。 当原始数据在低维空间中线性不可分时(如环形、月牙形数据),核函数能将数据隐
多变量决策树:机器学习中的“多面手”
在机器学习的广阔领域中,决策树一直是一种备受青睐的算法。它以其直观、易于理解和解释的特点,广泛应用于分类和回归任务。 然而,随着数据复杂性的不断增加,传统决策树的局限性逐渐显现。 本文将深入探讨多变量
当决策树遇上脏数据:连续值与缺失值的解决方案
在机器学习中,决策树算法因其简单易懂、可解释性强而被广泛应用。 然而,现实世界中的数据往往复杂多变,尤其是连续值和缺失值的存在,给决策树的构建带来了诸多挑战。 连续值(如年龄、收入)无法直接用于决策树
下一页