首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
香橙云子
掘友等级
在读硕士
|
北京邮电大学
虽只言片语,却也来之不易
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
赞
25
文章 22
沸点 3
赞
25
返回
|
搜索文章
最新
热门
PCA的工作原理
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述…
关于AdaBoost训练误差上界的推导细节问题
AdaBoost 作为一个机器学习模型,一定要有其训练误差上界。李航的《统计学习方法》里写的很完整,但是有个细节我提一下。 这里很多人以为是利用不等式计算的,这里不应该有等于号。实际上,大家忘了=2\sqrt{ab}" class="equation" src="https:/…
百亿级别数据的AUC如何计算
在百亿量级的样本下计算AUC,采用2种基础的AUC计算方法都有着耗时明显的问题,所以最好的思路是借助于大数据的分布式计算能力。这里可以借助AUC的物理含义:“任取一个正例和任取一个负例,正例排序在负例之前的概率”,可以直接sample出一大批positive和negative的…
长短文本的embedding问题
传统方法是把每个词的词向量,取平均或者取最大最小,这样其实会损失很多信息。
关于SVM,LR,和GBDT的一些思考
LR基本可以被划分为线性模型,模型本身并不能完全解决非线性问题。但是我们在使用LR的过程中,往往要对数据进行稀疏化,例如one-hot操作。这样操作会将特征的向量空间进行升维,使得问题变得线性可分。我们在工业级的数据中,往往输入模型的特征维度过百万,千万甚至上亿,很多都是这种特…
十小时搞定二叉树面试之DFS方法(Python)
数据工程师惯用python,然而数据结构还是c++或者java比较经典。这就造成很多朋友并不太习惯。本文就从《剑指offer》这本书中的经典题型出发,来研究探讨一下python 刷数据结构题型的一些惯用思路。 可能有过几年编程经验的朋友们对于一些常用的程序了如指掌,却总是觉得二…
热力图绘制的一个新想法-分析数据
数据可视化往往可以帮助我们分析特征构成,寻找特征区间,以及解释实验结果的功能。热力图是常用的数据可视化方法之一。 我们函数输入一个dataframe,然后吧图片写入到制定路径就可以了。一般直接打出来显示的不太清晰,还是保存起来比较好。 值得注意的是,corr()函数原本计算出来…
手推逻辑回归--面试前拯救一下
LogisticRegression,逻辑回归。虽然其名称中含有回归二字,但其是一种非线性分类模型。逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但其本质上又是一个线性回归模型。其仅仅是在线性分类之外套了一层sigmoid映射,所以在sigmoid约束后的样本空间内…
手推BP算法-面试前抢救一下
网上关于BP算法的解释浩如烟海,我没必要多写一篇充数,不过面试之前总想快速的复习一下,奈何没有成文的资料。本文旨在提取出纯净的推导过程,不过多解释,为了有基础的朋友们面试前快速过一下。 单个神经元的最简单神经网络模型如上图所示,也称作“M-P神经元模型”。该模型可以视为神经网络…
面试前抢救一下--朴素贝叶斯分类器
朴素贝叶斯分类器,实际上也是对人们常识做的一个算法的完善。其以一种更为精准的量化来判断分类,使用的方法是后验概率。本文从与决策树的比较出发,介绍先验概率和后验概率的关系,再详细介绍一下朴素贝叶斯算法的流程。 朴素贝叶斯算法比较简单,所以此文多是留以面试前复习之用。理清各个问题之…
下一页
个人成就
文章被点赞
376
文章被阅读
169,392
掘力值
3,000
关注了
7
关注者
3,128
收藏集
4
关注标签
25
加入于
2017-11-19