首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
木东居士的茶水间
掘友等级
数据搬运工一只,欢迎光临个人小站:http://www.mdjs.info/about/
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
28
文章 28
沸点 0
赞
28
返回
|
搜索文章
最新
热门
聊一聊 PageRank 的原理和实现
Google出品必属精品!作为一名生长在Google大树下的草根程序员,Google的各种技术还是好好膜拜一下的。仔细也一想自己也算看了不少Google不少的论文:Goods、Spanner、F1、GFS、MapReduce、BigTable和Dremel。不过Google成名…
聊一聊数据获取和爬虫
为什么要把数据获取、爬虫放在一起来聊呢? 居士是想成为一名数据科学家的!数据科学家就要具备很多的技能,什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。 但是,首先我们要有数据,没有数据我们玩什么?想要玩数据,我们就要来聊一下数据获取,数据获取有很多途径,爬虫算是其中…
聊一聊如何优雅地向程序员提问题
你是否遇到过抛出了一个问题后,群里突然安静了,或者是大家继续聊其它话题自动忽略你的问题? 你是否遇到过抛出了一个问题后,别人只是随便回你一句,然后再继续追问就不再搭理你了? 你是否遇到过抛出了一个问题后,别人的回答总是答非所问,抓不住你的重点? 如果上面的问题你都没有遇到过,那…
聊一聊数据倾斜那些坑
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 先大致解释一下什么是数据倾斜 再根据几个场景…
机器学习经典开源数据集
数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。 正文分三部分: 详细介绍最常用的几个经典数据集 介绍如何使用 Python 优雅地观察数据集 其它开源数据集的获取方式 下面表格中是居士整理的一些最常用的数据集…
你了解你的数据吗(元婴篇)
本篇是《你了解你的数据吗》的第五篇,在前面的几篇文章中,我们聊到了数据接入量、数据的坑、数据核心维度分布、数据口径和数据质量监控。本篇将引入一个新的概念:数据血缘分析 ,或者叫血统分析。 那么什么是数据血缘分析呢?在这里我们不给出它的严谨的定义,仅从感觉上来解释一下这个东西。 …
我解散了维护了一年的技术群
2017年初,我从北京来到了深圳,这个很陌生的城市。 没有经常下班一起吃饭喝酒的同事,也没有没事就能聚一下吹吹牛的同学,仿佛人脉圈一下子全断了。 于是我就想,能不能建一个大数据相关的群,在里面可以聊聊技术,谈谈人生。大家一起玩才有乐趣。 对于这个群我是有期望的,我希望它是这样:…
写博客那些事
有一段时间没有好好写点东西了,经过前段时间的折腾和思考,总算能够静下心好好想一想后续的学习规划,顺便开始新的博客写作旅途。 2009年,我开通的自己的第一个博客,那时候用的是用网易博客,用来装一下文艺,大概三四年,写了十多篇水文和一些小诗。(现在看起来特别逗) 2015年初我注…
机器学习面试之各种混乱的熵(二)
此为《机器学习面试之各种混乱的熵》的第二部分,本篇将分享前文提到的各种熵,内容将包括:联合熵、条件熵、相对熵和交叉熵。 虽然前文提出了那么多熵,但它们之间是有内在联系的,所以,我们尽可能按照它们的内在关系开展学习,先从联合熵说起。 联合熵与联合概率分布有关,对于随机变量 X 和…
数据工程师该如何入门?
最近发现身边有不少小伙伴想转行做数据工程师,聊天的过程中发现大家对该如何入门有很多迷茫的地方,周末写篇博客记录一下。 数据工程师该如何入门?话题有点大,而且每个人的理解都很不一样,因此我们会先限定一下会对这个话题感兴趣的人群: 做了几年其它软件开发,发现大数据方向更有前景 在校…
下一页
个人成就
文章被点赞
725
文章被阅读
85,949
掘力值
3,002
关注了
0
关注者
919
收藏集
0
关注标签
1
加入于
2017-05-18