首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
杉杉不要bug
掘友等级
研究生在读
|
北京邮电大学
能力撑不起野心,沉下心学习吧。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
73
文章 58
沸点 15
赞
73
返回
|
搜索文章
赞
文章( 58 )
沸点( 15 )
长短文本的embedding问题
传统方法是把每个词的词向量,取平均或者取最大最小,这样其实会损失很多信息。
百亿级别数据的AUC如何计算
在百亿量级的样本下计算AUC,采用2种基础的AUC计算方法都有着耗时明显的问题,所以最好的思路是借助于大数据的分布式计算能力。这里可以借助AUC的物理含义:“任取一个正例和任取一个负例,正例排序在负例之前的概率”,可以直接sample出一大批positive和negative的…
关于SVM,LR,和GBDT的一些思考
LR基本可以被划分为线性模型,模型本身并不能完全解决非线性问题。但是我们在使用LR的过程中,往往要对数据进行稀疏化,例如one-hot操作。这样操作会将特征的向量空间进行升维,使得问题变得线性可分。我们在工业级的数据中,往往输入模型的特征维度过百万,千万甚至上亿,很多都是这种特…
神经网络优化算法:Dropout、梯度消失/爆炸、Adam优化算法,一篇就够了!
1. 训练误差和泛化误差 机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢? **训练误差:**模型在训练数据集上表现出的误差。 **泛化误差:**模型…
【神经网络基础】BP算法原理及两种实现
m:表示样本数量。 :表示第l层的神经元个数。 :表示第l层的输入变量,也是第l-1层经过激活函数处理后的结果。其维度一般为 输入层是一个的矩阵,即为m个样本,每个样本包含个特征,本例为3*5。 隐藏层有个隐藏单元。该隐层中包括两步计算, 第二步是激活函数,非线性变换,并且将数…
贪心算法
贪心算法是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的是在某种意义上的局部最优解。 贪心算法的基本思路是从问题的某一个初始解出发一步一步地进行,根据某个优化测度,每一步都要确保能获得局部最优解。每一步只考虑一个数据,他的选取应该…
十小时搞定二叉树面试之DFS方法(Python)
数据工程师惯用python,然而数据结构还是c++或者java比较经典。这就造成很多朋友并不太习惯。本文就从《剑指offer》这本书中的经典题型出发,来研究探讨一下python 刷数据结构题型的一些惯用思路。 可能有过几年编程经验的朋友们对于一些常用的程序了如指掌,却总是觉得二…
【火炉炼AI】机器学习053-数据降维绝招-PCA和核PCA
主成分分析(Principal Component Analysis, PCA)可以说是数据降维的绝招,不仅在人口统计学,数量地理学,分子动力学模拟,数学建模等领域有着重要的应用,而且在机器学习领域,PCA也是非常常用的一种数据降维方法。 首先来理解什么叫数据降维:假设有一个项…
[译] XGBoost 算法万岁!
我还记得 15 年前我的第一份工作。那时,我刚完成研究生课程,作为一名分析师加入了一家国际投行。在入职的第一天,我小心翼翼地工作,不断回想学过的知识,心里想着自己是否能胜任这个企业的工作。老板感受到了我的焦虑,笑着对我说: 我仔细想了想,“明白了!” —— 无论是线性回归还是逻…
XGBoost缺失值引发的问题及其深度分析
1. 背景 XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中,却存…
下一页
个人成就
文章被点赞
105
文章被阅读
114,468
掘力值
2,552
关注了
40
关注者
1,623
收藏集
4
关注标签
21
加入于
2018-11-14