首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
Cyberpunk
更多收藏集
微信扫码分享
微信
新浪微博
QQ
12篇文章 · 0订阅
[从源码学设计]蚂蚁金服SOFARegistry之时间轮的使用
在我们的业务系统和日常开发之中,定期任务是一个常见的需求。即也有普通需求,也有特殊业务需求。本文和下文就以 SOFARegistry 为例,看看阿里是如何实现定期任务的。这里会结合业务来进行讲解。 本文是系列第八篇,借鉴了网上众多文章,请参见0xFF 参考。也分析了Netty同…
如何判断一个元素在亿级数据中是否存在?
需求其实很清晰,只是要判断一个数据是否存在即可。 但这里有一个比较重要的前提:非常庞大的数据。 我想大多数想到的都是用 HashMap 来存放数据,因为它的写入查询的效率都比较高。 写入和判断元素是否存在都有对应的 API,所以实现起来也比较简单。 为了方便调试加入了 GC 日…
作为一个编程新手,我再也不怕Flink迷了我的眼!
接下来本文将逐步解密 Flink 的类型和序列化机制。 可以看到,图 1 和 图 2 是一一对应的,TypeInformation 类是描述一切类型的公共基类,它和它的所有子类必须可序列化(Serializable),因为类型信息将会伴随 Flink 的作业提交,被传递给每个执…
如何使用HBase?大数据存储的两个实战场景
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。 - 列可以动态增加,并且列为空就不…
业务增长400%,Uber如何快准稳扩容HDFS集群?
三年前,Uber 采用 Hadoop 作为大数据分析系统中海量存储(HDFS)和并行计算(YARN)的底层架构方案。随着业务的发展,Uber 不断对这套系统的稳定性、可用性以及用户体验进行了持续的改善。 Uber 使用 Hadoop 的场景有很多,包括批处理和流式计算。其涵盖的…
rsync udr——远程大文件传输加速
rsync 是一款快速增量备份工具,类似 Unix 系统下的数据镜像备份工具——RemoteSync。rsync 远程同步支持本地复制、与其他ssh、rsync主机同步。 1、可以镜像保存整个目录树和文件系统。 2、可以很容易做到保持原来文件的权限、时间、软硬链接等等。 3、无…
大数据平台基础架构hadoop安全分析
内容来源:2017 年 07 月 29 日,威客安全技术合伙人安琪在“CDAS 2017 中国数据分析师行业峰会”进行《大数据平台基础架构hadoop安全分析》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。 分析hado…
记一Hive执行Job挂起(Accepted状态)的异常处理
说明任务被提交到调度器,但ApplicationMaster申请的资源超过了上限,剩余可用资源不足以启动AM,因此程序处于挂起状态,不能运行。 触发资源上限的可能是内存,或虚拟核数(vCores)以及二者均有,分析时可注意甄别。 maximum-am-resource-perc…
Spark 源码分析(二): Driver 注册及启动
上一篇文章已经已经执行到 Client 向 masterEndpoint 发送了 RequestSubmitDriver 信息,下面就看看 master 怎么注册 driver 信息,并且怎么让 worker 去启动 driver 的。 这个 Master 就是前面 Clien…
Spark实战--寻找5亿次访问中,访问次数最多的人
对于一个大型网站,用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念,我们这里可以简单的计算一下。对于一个用户,单次访问,我们通常会记录下哪些数据呢? 我们单单从用户id来说,比如10011802330414,这个ID,那么我们一个id差不多就是一个long类型,因为在大量…