首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Big data
订阅
LIJIMax
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
用Elasticsearch构建电商搜索平台
一个中等的电商平台,每天都要产生百万条原始数据,上亿条用户行为数据。一般来说,电商数据一般有3种主要类型的数据系统: 关系型数据库 ,大多数互联网公司会选用mysql作为关数据库的主选,用于存储商品,用户信息等数据。 关系型数据库对于事务性非常高的OLTP操作(比如订单,结算等…
七张图彻底讲清楚ZooKeeper分布式锁的实现原理【石杉的架构笔记】
之前写过一篇文章(《拜托,面试请不要再问我Redis分布式锁的实现原理》),给大家说了一下Redisson这个开源框架是如何实现Redis分布式锁原理的,这篇文章再给大家聊一下ZooKeeper实现分布式锁的原理。 同理,我是直接基于比较常用的Curator这个开源框架,聊一下…
【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍
上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。 主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。 如果没看那篇文章的同学,可以…
兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理
Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。…
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
Python Scrapy 爬虫(二):scrapy 初试
接上篇,之前我们搭建好了运行环境,相当于我们搭好了炮台,现在就差猎物和武器了。 注:虽然西刺声称提供了全网唯一的免费代理 IP 接口,但似乎并没有什么用,因为根本不返回数据...我们自己做点小工作还是可以的。 正所谓知己知彼,至于胜多胜少,先不纠结。我们先打开网站(使用 Chr…
大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理,相信大家都有了一定的认识和了解。 如果没看过上篇文章的同学可以看一下:《兄弟,用大白话告诉你小白都能听懂的Hadoop架构原理》这篇文章。 我们先来分析一下,高并发请求NameNode会遇到什么样的问题。 写…
MongoDB、Hbase、Redis等NoSQL优劣势、应用场景
点击上方“民工哥技术之路”,选择“置顶公众号” 有趣有内涵的文章第一时间送达! NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时N…
[译] Python 与大数据:Airflow、 Jupyter Notebook 与 Hadoop 3、Spark、Presto
最近几年里,Python 已成为数据科学、机器学习和深度学习领域的一门流行的编程语言。只需再配上查询语言 SQL 即可完成大多数工作。SQL 很棒,用英语即可发出指令,且只需指示想要什么,而无需关心具体如何查询。这使得底层的查询引擎可以不改变 SQL 查询就能对其进行优化。Py…