首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Hadoop基础
订阅
BlackMani丶4
更多收藏集
微信扫码分享
微信
新浪微博
QQ
9篇文章 · 0订阅
小白的数据进阶之路(上)——从Shell脚本到MapReduce
那一年,小白刚从学校毕业,学的是计算机专业。最开始他也不清楚自己想要一份怎样的工作,只知道自己先找个互联网公司干干技术再说。 有一天,小白来到一家刚成立不久的小创业公司参见面试。公司虽小,但团队却是华丽丽的。两位创始人都是MIT的MBA,Co-CEO。他们号称,公司的运营、财务…
Zookeeper工作过程详解
一、Zookeeper工作机制分布式和集中式系统相比,有很多优势,比如更强的计算能力,存储能力,避免单点故障等问题。但是由于在分布式部署的方式遇到网络故障等问题的时候怎么保证各个节点数据的一致性和可用
大数据需要掌握的基本算法
数学就像一条章鱼,它有触手可以触及到几乎每个学科上面。虽然大部分人在上学的时候有系统的学习,但都没有进行深入的研究和运用,只是拿来拓展自己的思维逻辑。但是如果你想从事数学相关的研究或者岗位,你将不得不努力学习数学。如果你已经完成了数学学位或一些技能学位,你可能会知道你所学的是否…
带你入坑大数据(四)--- 资源调度框架Yarn
在MapReduce的时候也许很多人会有这种疑问:写了MR后,map task和reduce task是如何在多节点上并行执行的,而且又是怎么决定哪个任务执行再哪个节点上的?其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR,还可以运行各种各样的程序。…
全文搜索怎么给查询语句与文档相关性打分
朴素想法 用户输入一个查询 query,query 由若干词(term)组成,文档也由若干词(term)组成。那么怎么评判查询和文档的相关性的高低。 很朴素简单的想法就是文档中包含的 term 与查询 query 中包含的 term,两者越多相同的则说明越相关。比如 query 为 "animal…
Hive SQL 编译 MapReduce
Hive 是基于 Hadoop 的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于 Hive 搭建,每天执行近万次的 Hive ETL 计算流程,负责每天数百 GB 的数据存储和分析。Hive 的稳定性和性能对我们的数据分析非常关键。 在几次升级 Hive 的过…
bert+seq2seq 周公解梦,看AI如何解析你的梦境?
在参与的项目和产品中,涉及到模型和算法的需求,主要以自然语言处理(NLP)和知识图谱(KG)为主。NLP涉及面太广,而聚焦在具体场景下,想要生产落地的还需要花很多功夫。 作为NLP的主要方向,情感分析,文本多分类,实体识别等已经在项目中得到应用。例如 通过实体识别,抽取文本中提…
以交易系统为例,看分布式事务架构的五大演进
在支付、交易、订单等强一致性系统中,我们需要使用分布式事务来保证各个数据库或各个系统之间的数据一致性。