首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
数据科学
订阅
xiaopeng4635
更多收藏集
微信扫码分享
微信
新浪微博
QQ
14篇文章 · 0订阅
数据科学和人工智能技术笔记 十二、逻辑回归
有时,学习算法的特征使我们能够比蛮力或随机模型搜索方法更快地搜索最佳超参数。 scikit-learn 的LogisticRegressionCV方法包含一个参数C。 如果提供了一个列表,C是可供选择的候选超参数值。 如果提供了一个整数,C的这么多个候选值,将从 0.0001 …
数据科学和人工智能技术笔记:文本预处理
词干提取通过识别和删除词缀(例如动名词)同时保持词的根本意义,将词语简化为词干。 NLTK 的PorterStemmer实现了广泛使用的 Porter 词干算法。 输出是一个元组列表,包含单词和词性的标记。 NLTK 使用 Penn Treebank 词性标签。
数据科学和人工智能技术笔记 八、特征选择
如果特征是类别的,计算每个特征与目标向量之间的卡方($\chi^{2}$)统计量。 但是,如果特征是定量的,则计算每个特征与目标向量之间的 ANOVA F 值。 F 值得分检查当我们按照目标向量对数字特征进行分组时,每个组的均值是否显着不同。 在二元特征(即伯努利随机变量)中,…
数据科学和人工智能技术笔记 六、日期时间预处理
如果errors="coerce"那么任何问题都不会产生错误(默认行为),而是将导致错误的值设置为NaT(即缺失值)。 如果数据帧未按时间索引,请使用此方法。 如果数据帧按时间索引,请使用此方法。
爬虫,其实本就是这么简单
时至今日,大前端思想已经深入人心,很多知识都要涉及到。所以对于现在的前端儿来说也是来着不拒的,练就吸星大法的时候,尽量多的吸收知识,最后达到物尽其用的效果 尽管这些数据一时半会确实不会有太大的变化,不过总觉得还是有些low的。于是学习了关于爬虫的知识后,打算和大家一起探讨交流一…
数据科学和人工智能技术笔记 十六、朴素贝叶斯
伯努利朴素贝叶斯分类器假设我们的所有特征都是二元的,它们仅有两个值(例如,已经是独热编码的标称分类特征)。 类别概率是机器学习模型中常见且有用的部分。 在 scikit-learn 中,大多数学习算法允许我们使用predict_proba来查看成员的类别预测概率。 例如,如果我…
数据科学和人工智能技术笔记 十三、树和森林
最重要的参数是base_estimator,n_estimators和learning_rate。 base_estimator是用于训练弱模型的学习算法。 这几乎总是不需要改变,因为到目前为止,与 AdaBoost 一起使用的最常见的学习者是决策树 - 这个参数的默认参数。 …
数据科学和人工智能技术笔记 十一、线性回归
通过添加一个新的特征,它是交互特征的乘积,来添加交互项。 $\hat {y} = \hat {\beta_{0}} + \hat {\beta_{1}}x_{1}+ \hat {\beta_{2}}x_{2} + \hat {\beta_{3}}x_{1}x_{2} + \ep…
数据科学和人工智能技术笔记 :数据准备
波士顿住房数据集 是 20 世纪 70 年代的着名数据集。 它包含506个关于波士顿周边房价的观测。 它通常用于回归示例,包含 15 个特征。 如您所见,特征未标准化。 如果我们将值显示为小数,则更容易看到: 因此,标准化的特征值通常是有益的和/或需要的。 数字是手写数字的数据…