首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Big Data
BeCautious
创建于2022-05-26
订阅专栏
Big Data 技能树 核心 分布式存储 分布式计算 离线批处理 流式 数据采集 ETL 数据挖掘 数据可视化
暂无订阅
共8篇文章
创建于2022-05-26
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大数据架构 - Hadoop3 - Hadoop基本命令和Java API
HDFS创建目录 HDFS查看目录 HDFS复制文件和目录 HDFS移动文件和目录 HDFS上传文件命令 HDFS下载文件命令 HDFS删除文件命令 Java API Java抽象类org.apach
大数据架构 - Hadoop2 - Hadoop集群部署
通过Docker安装Hadoop镜像 启动Hadoop 通过jar启动Hadoop Hadoop UI 在这里可以看到启动过程,以及NN和DN的信息。 http://localhost:50070/d
大数据架构 - Hadoop1 - Hadoop2.0带来的改进
Hadoop1.0存在的问题 NameNode SPOF,NameNode挂掉整个集群不可用 内存受限,整个集群的size受限于NameNode的内存空间大小 HDFS2.0的解决方案 HDFS2.0
大数据架构的基石 - 数据存储层2 - HDFS内部原理
Data Block 在HDFS中大文件会被切分成数据块分布在不同的机器上,每个数据块是以单独的文件形式存储在各自的文件系统中。 比如下面一个6440MB的一个大文件会以101个64MB大小的Bloc
大数据架构的基石 - 数据存储层1 - HDFS基本组成
分布式存储技术是如何产生的? 分布式存储是大数据平台中的根基, 其是在数据存储技术不断优化的过程中诞生的,分布式存储技术提高了磁盘读写的性能以及提供了横向拓展和容灾的特性。 数据存储优化的基本思路 对
初识分布式计算架构
MapReduce MR是一种典型的离线分布式计算技术。 两个函数: Map和Reduce • 核心思想: 分而治之 • 设计理念: 计算向数据靠拢 MapReduce vs 并行计算 分布式的4种计
初识Hadoop
什么是Hadoop 我们常常说大数据平台一般是指Hadoop集群,Hadoop集群包含HDFS分布式文件系统和YARN资源管理系统以及分布式离线计算MR。 Hadoop基础组件 现在Hadoop的生态
初识大数据
什么是大数据? 大数据是一种规模大到在获取、存储、管理和分析方面大大超出了传统数据库软件工具能力范围的数据集合。 并且无法在一定时间范围内用常规软件工具进行捕捉、管理和处理,是需要新处理模式才能具有更