大数据 - Cyberpunk的收藏集 - 掘金

大数据

更多收藏集

12篇文章 · 0订阅

[从源码学设计]蚂蚁金服SOFARegistry之时间轮的使用

在我们的业务系统和日常开发之中，定期任务是一个常见的需求。即也有普通需求，也有特殊业务需求。本文和下文就以 SOFARegistry 为例，看看阿里是如何实现定期任务的。这里会结合业务来进行讲解。本文是系列第八篇，借鉴了网上众多文章，请参见0xFF 参考。也分析了Netty同…

罗西的思考
5年前
510
2
评论

如何判断一个元素在亿级数据中是否存在？

需求其实很清晰，只是要判断一个数据是否存在即可。但这里有一个比较重要的前提：非常庞大的数据。我想大多数想到的都是用 HashMap 来存放数据，因为它的写入查询的效率都比较高。写入和判断元素是否存在都有对应的 API，所以实现起来也比较简单。为了方便调试加入了 GC 日…

crossoverJie
7年前
24k
479
68

如何判断一个元素在亿级数据中是否存在？

作为一个编程新手，我再也不怕Flink迷了我的眼！

接下来本文将逐步解密 Flink 的类型和序列化机制。可以看到，图 1 和图 2 是一一对应的，TypeInformation 类是描述一切类型的公共基类，它和它的所有子类必须可序列化（Serializable），因为类型信息将会伴随 Flink 的作业提交，被传递给每个执…

腾讯云开发者
7年前
4.1k
3
评论

如何使用HBase？大数据存储的两个实战场景

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，适用于结构化的存储，底层依赖于Hadoop的HDFS，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。 - 列可以动态增加，并且列为空就不…

民工哥技术之路
7年前
2.2k
29
1

业务增长400%，Uber如何快准稳扩容HDFS集群？

三年前，Uber 采用 Hadoop 作为大数据分析系统中海量存储（HDFS）和并行计算（YARN）的底层架构方案。随着业务的发展，Uber 不断对这套系统的稳定性、可用性以及用户体验进行了持续的改善。 Uber 使用 Hadoop 的场景有很多，包括批处理和流式计算。其涵盖的…

AI前线
8年前
2.0k
10
评论

rsync udr——远程大文件传输加速

rsync 是一款快速增量备份工具，类似 Unix 系统下的数据镜像备份工具——RemoteSync。rsync 远程同步支持本地复制、与其他ssh、rsync主机同步。 1、可以镜像保存整个目录树和文件系统。 2、可以很容易做到保持原来文件的权限、时间、软硬链接等等。 3、无…

小米云技术
7年前
5.6k
29
2

大数据平台基础架构hadoop安全分析

内容来源：2017 年 07 月 29 日，威客安全技术合伙人安琪在“CDAS 2017 中国数据分析师行业峰会”进行《大数据平台基础架构hadoop安全分析》演讲分享。IT 大咖说（微信id：itdakashuo）作为独家视频合作方，经主办方和讲者审阅授权发布。分析hado…

IT大咖说
7年前
3.1k
17
评论

大数据平台基础架构hadoop安全分析

记一Hive执行Job挂起（Accepted状态）的异常处理

说明任务被提交到调度器，但ApplicationMaster申请的资源超过了上限，剩余可用资源不足以启动AM，因此程序处于挂起状态，不能运行。触发资源上限的可能是内存，或虚拟核数（vCores）以及二者均有,分析时可注意甄别。 maximum-am-resource-perc…

1024点线面
6年前
4.8k
5
4

Spark 源码分析（二）: Driver 注册及启动

上一篇文章已经已经执行到 Client 向 masterEndpoint 发送了 RequestSubmitDriver 信息，下面就看看 master 怎么注册 driver 信息，并且怎么让 worker 去启动 driver 的。这个 Master 就是前面 Clien…

stonezhu
6年前
2.0k
点赞
评论

Spark实战--寻找5亿次访问中，访问次数最多的人

对于一个大型网站，用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念，我们这里可以简单的计算一下。对于一个用户，单次访问，我们通常会记录下哪些数据呢？我们单单从用户id来说，比如10011802330414，这个ID，那么我们一个id差不多就是一个long类型，因为在大量…

诗昭
7年前
2.8k
8
评论