Big data - LIJIMax的收藏集 - 掘金

Big data

更多收藏集

10篇文章 · 0订阅

用Elasticsearch构建电商搜索平台

一个中等的电商平台，每天都要产生百万条原始数据，上亿条用户行为数据。一般来说，电商数据一般有3种主要类型的数据系统：关系型数据库，大多数互联网公司会选用mysql作为关数据库的主选，用于存储商品，用户信息等数据。关系型数据库对于事务性非常高的OLTP操作(比如订单，结算等…

HBLOG
7年前
17k
263
7

七张图彻底讲清楚ZooKeeper分布式锁的实现原理【石杉的架构笔记】

之前写过一篇文章（《拜托，面试请不要再问我Redis分布式锁的实现原理》），给大家说了一下Redisson这个开源框架是如何实现Redis分布式锁原理的，这篇文章再给大家聊一下ZooKeeper实现分布式锁的原理。同理，我是直接基于比较常用的Curator这个开源框架，聊一下…

石杉的架构笔记
7年前
35k
230
54

七张图彻底讲清楚ZooKeeper分布式锁的实现原理【石杉的架构笔记】

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

上一篇文章，我们聊了一下Hadoop中的NameNode里的edits log写机制。主要分析了edits log写入磁盘和网络的时候，是如何通过分段加锁以及双缓冲的机制，大幅度提升了多线程并发写edits log的吞吐量，从而支持高并发的访问。如果没看那篇文章的同学，可以…

石杉的架构笔记
7年前
6.0k
28
9

【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

Hadoop是目前大数据领域最主流的一套技术体系，包含了多种技术。包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。有些朋友可能听说过Hadoop，但是却不太清楚他到底是个什么东西，这篇文章就用大白话给各位阐述一下。…

石杉的架构笔记
7年前
15k
178
30

兄弟，用大白话告诉你小白都能看懂的Hadoop架构原理

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

Python Scrapy 爬虫（二）：scrapy 初试

接上篇，之前我们搭建好了运行环境，相当于我们搭好了炮台，现在就差猎物和武器了。注：虽然西刺声称提供了全网唯一的免费代理 IP 接口，但似乎并没有什么用，因为根本不返回数据...我们自己做点小工作还是可以的。正所谓知己知彼，至于胜多胜少，先不纠结。我们先打开网站（使用 Chr…

雨林君
7年前
1.9k
15
2

大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理，相信大家都有了一定的认识和了解。如果没看过上篇文章的同学可以看一下：《兄弟，用大白话告诉你小白都能听懂的Hadoop架构原理》这篇文章。我们先来分析一下，高并发请求NameNode会遇到什么样的问题。写…

石杉的架构笔记
7年前
7.7k
25
12

大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

MongoDB、Hbase、Redis等NoSQL优劣势、应用场景

点击上方“民工哥技术之路”，选择“置顶公众号” 有趣有内涵的文章第一时间送达！ NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代，虽然RDBMS很优秀，但是面对快速增长的数据规模和日渐复杂的数据模型，RDBMS渐渐力不从心，无法应对很多数据库处理任务，这时N…

民工哥技术之路
7年前
3.2k
45
评论

[译] Python 与大数据：Airflow、 Jupyter Notebook 与 Hadoop 3、Spark、Presto

最近几年里，Python 已成为数据科学、机器学习和深度学习领域的一门流行的编程语言。只需再配上查询语言 SQL 即可完成大多数工作。SQL 很棒，用英语即可发出指令，且只需指示想要什么，而无需关心具体如何查询。这使得底层的查询引擎可以不改变 SQL 查询就能对其进行优化。Py…

cf020031308
7年前
8.3k
20
评论