数据科学 - xiaopeng4635的收藏集 - 掘金

数据科学

xiaopeng4635 创作等级LV.3

更多收藏集

14篇文章 · 0订阅

数据科学和人工智能技术笔记十二、逻辑回归

有时，学习算法的特征使我们能够比蛮力或随机模型搜索方法更快地搜索最佳超参数。 scikit-learn 的LogisticRegressionCV方法包含一个参数C。如果提供了一个列表，C是可供选择的候选超参数值。如果提供了一个整数，C的这么多个候选值，将从 0.0001 …

布客飞龙
7年前
189
点赞
评论

数据科学和人工智能技术笔记：文本预处理

词干提取通过识别和删除词缀（例如动名词）同时保持词的根本意义，将词语简化为词干。 NLTK 的PorterStemmer实现了广泛使用的 Porter 词干算法。输出是一个元组列表，包含单词和词性的标记。 NLTK 使用 Penn Treebank 词性标签。

布客飞龙
7年前
478
2
评论

数据科学和人工智能技术笔记八、特征选择

如果特征是类别的，计算每个特征与目标向量之间的卡方（$\chi^{2}$）统计量。但是，如果特征是定量的，则计算每个特征与目标向量之间的 ANOVA F 值。 F 值得分检查当我们按照目标向量对数字特征进行分组时，每个组的均值是否显着不同。在二元特征（即伯努利随机变量）中，…

布客飞龙
7年前
707
2
评论

数据科学和人工智能技术笔记六、日期时间预处理

如果errors="coerce"那么任何问题都不会产生错误（默认行为），而是将导致错误的值设置为NaT（即缺失值）。如果数据帧未按时间索引，请使用此方法。如果数据帧按时间索引，请使用此方法。

布客飞龙
7年前
543
5
评论

爬虫，其实本就是这么简单

时至今日，大前端思想已经深入人心，很多知识都要涉及到。所以对于现在的前端儿来说也是来着不拒的，练就吸星大法的时候，尽量多的吸收知识，最后达到物尽其用的效果尽管这些数据一时半会确实不会有太大的变化，不过总觉得还是有些low的。于是学习了关于爬虫的知识后，打算和大家一起探讨交流一…

chenhongdong
6年前
18k
444
58

数据科学和人工智能技术笔记十六、朴素贝叶斯

伯努利朴素贝叶斯分类器假设我们的所有特征都是二元的，它们仅有两个值（例如，已经是独热编码的标称分类特征）。类别概率是机器学习模型中常见且有用的部分。在 scikit-learn 中，大多数学习算法允许我们使用predict_proba来查看成员的类别预测概率。例如，如果我…

布客飞龙
7年前
323
点赞
评论

数据科学和人工智能技术笔记十三、树和森林

最重要的参数是base_estimator，n_estimators和learning_rate。 base_estimator是用于训练弱模型的学习算法。这几乎总是不需要改变，因为到目前为止，与 AdaBoost 一起使用的最常见的学习者是决策树 - 这个参数的默认参数。 …

布客飞龙
7年前
225
点赞
评论

数据科学和人工智能技术笔记十一、线性回归

通过添加一个新的特征，它是交互特征的乘积，来添加交互项。 $\hat {y} = \hat {\beta_{0}} + \hat {\beta_{1}}x_{1}+ \hat {\beta_{2}}x_{2} + \hat {\beta_{3}}x_{1}x_{2} + \ep…

布客飞龙
7年前
263
点赞
评论

数据科学和人工智能技术笔记：数据准备

波士顿住房数据集是 20 世纪 70 年代的着名数据集。它包含506个关于波士顿周边房价的观测。它通常用于回归示例，包含 15 个特征。如您所见，特征未标准化。如果我们将值显示为小数，则更容易看到：因此，标准化的特征值通常是有益的和/或需要的。数字是手写数字的数据…

布客飞龙
7年前
316
点赞
评论