首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
forever玲
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
数据调度组件:基于Azkaban协调时序任务执行
在数据服务的业务场景中,很常见的业务流程就是日志文件经过大数据分析,再向业务输出结果数据;在该过程中会有很多任务需要执行,并且很难精准把握任务执行的结束时间,但是又希望整个任务链尽快结束释放资源。 这样的流程不必业务中任务调度,时间基本是可预估的,只要把握留足任务间隔时间即可,…
大数据学习之路(13):MapReduce的Shuffle机制及Partition分区
一、简介 shuffle 描述着数据从maptask 输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,map的输出要用到Reduce中必须经过的shuf
Hive:select count(distinct)优化以及hive.groupby.skewindata
好家伙,有一个Reduce Task执行了10个小时,另个一执行了近2小时,其余Reduce Task的执行时间很短。 简而言之:SQL 中的 Group By 字段会决定某条数据最终落在哪一个 Reducer 上处理。 其实 Hive 早就考虑到这个场景,并且贴心的提供了 h…
Hive UDF 开发手册
特此整理一番,供自己日后工作参考之用。同时也分享给大家,可以指导初学者开发自定义UDF,也可以作为随用随查的参考手册: 临时函数:只在当前客户端会话中生效的函数,不会影响到其他的会话。客户端退出后,临时函数就失效了 永久函数:注册永久函数后,其他的客户端会话也可以使用这个函数。…
Linux面试题(总结最全面的面试题)
Linux是一套免费使用和自由传播的类似Unix操作系统,一般的WEB项目都是部署都是放在Linux操作系统上面。 Linux是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的Unix工具软件、应用程序和网络协议。它支持32位和64位…
ZooKeeper面试题(总结最全面的面试题)
ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件,分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。 ZooKeeper 的…
大数据面试杀招——Hive高频考点,就怕你都会!
上一篇文章介绍了3道常见的SQL笔试题,反响还算是不错。于是乎,接下来的几天,菌哥将每天为大家分享一些关于大数据面试的杀招,祝小伙伴们都能早日找到合适的工作~ 面试官往往一上来就一个“灵魂三连问”,很多没有提前准备好的小伙伴基本回答得都磕磕绊绊,效果不是很好。下面贴出菌哥的回答…
Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构 2. 创建目录 3. 删除操作 4. 从本地加载文件到 HDFS 5. 从 HDFS 导出文件到本地 6. 查看文件内容 7. 显示文件的最后一千字节 8. 拷贝文件 9. 移动文件 10. 统计当前目录下各文件大小 11. 合并下载多个文件 12. 统…
Flink 面试通关手册
概述2019年是大数据实时计算领域最不平凡的一年,2019年1月阿里巴巴Blink(内部的Flink分支版本)开源,大数据领域一夜间从Spark独步天下走向了两强争霸的时代。Flink因为其天然的流式