大数据 - 云影_cby的收藏集 - 掘金

大数据

更多收藏集

9篇文章 · 0订阅

面试官问：“在项目中用过多线程吗？”你就把这个案例讲给他听！

对于普通的应届生或者工作时间不长的初级开发？？？—— crud仔流下了没有技术的眼泪。博主这里整理了项目中用到了多线程的一个简单的实例，希望能对你有所启发。应用的背景非常简单，博主做的项目是一个审核类的项目，审核的数据需要推送给第三方监管系统，这只是一个很简单的对接，但是…

三分恶
5年前
4.3k
80
14

Cris 带你快速入门 Flink

在开源世界里，Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发，后来才被Apache基金会接纳。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的…

Cris就是我
7年前
18k
95
3

Cris 带你快速入门 Flink

Apache Kylin 入门 1 - 基本概念

Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay Inc. 开发并贡献至开源社区，它能在亚秒内查询巨大的 Hive 表。与 BI 工具无缝整合: Kyl…

rochy_he
7年前
5.8k
25
评论

重学Spark之RDD

什么是RDD？RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。Spark的惰

Biu_
5年前
1.1k
2
评论

目录：我的大数据学习笔记

可以通过长按二维码关注我的公众号，不过会先在掘金更新后同步过去。 PC端的这个右侧的目录找东西确实好找点，我每次写也非常注意看这块排版工不工整🤣，用这里去直接跳到对应的内容真的还算方便，所以就想着做个目录，以后如果写了新的，也会在这篇写上标题。按照不同技术框架的划分形式。已…

说出你的愿望吧
6年前
6.0k
75
20

带你入坑大数据（三） --- MapReduce介绍

简单回顾一下HDFS的写流程，MapReduce基础知识及机制了解，更详细的可以到我主页之后的MapReduce章节去查看

说出你的愿望吧
6年前
4.3k
27
4

带你入坑大数据（二） --- HDFS的读写流程和一些重要策略

Distributed FileSystem顾名思义是一个分布式文件系统，它会通过RPC的方式远程过程调用NameNode里的open方法，这个open方法有什么作用呢，就是获取要读的文件的file block locations，也就是文件的block的位置，在上一讲我们也已…

说出你的愿望吧
6年前
5.8k
53
11

带你入坑大数据（一） --- HDFS基础概念篇

从零开始的高并发系列我们已经把 zookeeper 给更新完了，顺带一提之前的zookeeper并没有结合大数据来进行说明。重新开个坑一方面是一直都想找个理由来总结一下大数据方面的东西，另一方面则是抓住时代的走向吧，毕竟也是为了自己，所以废话不多说我们就开始吧。单个文件比较大…

说出你的愿望吧
6年前
7.8k
93
5

带你入坑大数据（四）--- 资源调度框架Yarn

在MapReduce的时候也许很多人会有这种疑问：写了MR后，map task和reduce task是如何在多节点上并行执行的，而且又是怎么决定哪个任务执行再哪个节点上的？其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR，还可以运行各种各样的程序。…

说出你的愿望吧
6年前
5.2k
38
2