首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
rochy_he
掘友等级
研发工程师
|
EJY
大数据、搜索、爬虫、音乐
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
68
文章 55
沸点 13
赞
68
返回
|
搜索文章
赞
文章( 55 )
沸点( 13 )
Double Kill,用玩游戏的方式来学习 Git
一线码农,精通 Android、Python、小程序等拼写,做一个善于思考的程序员。 我想每个程序员都有 GitHub 吧,想我工作一年才知晓这个宝藏,我也慢慢地从“拿来”到自己造轮子,16 年,我前后开源了几个库,目前这些项目被 Stars 3400+,我也拥有 Follow…
美团DB数据同步到数据仓库的架构与实践
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后…
如何简单高效地部署和监控分布式爬虫项目
请先确保所有主机都已经安装和启动 Scrapyd,如果需要远程访问 Scrapyd,则需将 Scrapyd 配置文件中的 bind_address 修改为 bind_address = 0.0.0.0,然后重启 Scrapyd service。 通过运行命令 scrapydwe…
synchronize早已经没那么笨重
我发现一些同学在网络上有看不少synchronize的文章,可能有些同学没深入了解,只看了部分内容,就急急忙忙认为不能使用它,很笨重,因为是采用操作系统同步互斥信号量来实现的。关于这类的对于synchronize的污点,我打算帮它清洗下。 其实jdk1.6对锁的实现已经引入了大…
如何判断一个元素在亿级数据中是否存在?
需求其实很清晰,只是要判断一个数据是否存在即可。 但这里有一个比较重要的前提:非常庞大的数据。 我想大多数想到的都是用 HashMap 来存放数据,因为它的写入查询的效率都比较高。 写入和判断元素是否存在都有对应的 API,所以实现起来也比较简单。 为了方便调试加入了 GC 日…
一文读懂Apache Flink技术
Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否…
HBase 的 RowKey 设计
HBase 的 RowKey 设计
Kudu+Impala介绍 | 微店数据科学团队博客
Kudu+Impala介绍 | 微店数据科学团队博客
分布式作业系统 Elastic-Job 源码分析 —— 为什么阅读 Elastic-Job 源码?
- [为什么阅读 Elastic-Job 源码?] - [使用公司] - [步骤/功能] - [Elastic-Job-Cloud 不考虑写的内容] - [XXL-JOB]
隐马尔可夫分词
虽然目前 nlp 很多任务已经发展到了使用深度学习的循环神经网络模型和注意力模型,但传统的模型咱们也一样要了解。这里看下如何使用隐马尔科夫模型(HMM)进行分词。 隐马尔科夫模型是一种有向图模型,图模型能清晰表达变量相关关系的概率,常见的图模型还有条件随机场,节点表示变量,节点…
下一页
个人成就
文章被点赞
371
文章被阅读
130,637
掘力值
2,902
关注了
18
关注者
4,211
收藏集
12
关注标签
29
加入于
2018-07-10