首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据处理
订阅
肖晓岚
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理
Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。…
数据库面试题(开发者必看)
存储过程就像我们编程语言中的函数一样,封装了我们的代码(PLSQL、T-SQL)。 上面的文字我们肯定是看不懂的,也不愿意看下去的。接下来我就总结一下: 学生信息组成学生信息表,有年龄、性别、学号等信息组成。这些字段都不可再分,所以它是满足第一范式的 第二范式:满足第一范式,表…
基于代理的数据库分库分表框架 Mycat实践
在如今海量数据充斥的互联网环境下,分库分表的意义我想在此处就不用赘述了。而分库分表目前流行的方案最起码有两种: 而本文即将要实验的 MyCAT框架就属于第二种方案的代表作品。 由于插入的这两条记录的 create_date分别是 2018-11-3和 2018-12-3,而我们…
是时候学习真正的 spark 技术了
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spark streaming 维护的也不积极了, 我们基于 spark 来构建大数…
【性能优化的秘密】Hadoop如何将TB级大文件的上传性能优化上百倍
上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。 主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。 如果没看那篇文章的同学,可以…
浅谈hdfs架构与数据流
随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS,它是一个文件系统,用于存储文件,通过目录树…
数据库两大神器【索引和锁】
索引和锁在数据库中可以说是非常重要的知识点了,在面试中也会经常会被问到的。 表经常进行INSERT/UPDATE/DELETE操作就不要建立索引了,换言之:索引会降低插入、删除、修改等维护任务的速度。 索引需要占物理和数据空间。 为什么说索引会降低插入、删除、修改等维护任务的速…
Elasticsearch Lucene 数据写入原理 | ES 核心篇
前言最近TL分享了下《Elasticsearch基础整理》https://www.jianshu.com/p/e8226138485d,蹭着这个机会。写个小文巩固下,本文主要讲ES->Lucene的底