首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
JavaEdge在掘金
创建于2022-04-05
订阅专栏
大数据
等 2 人订阅
共20篇文章
创建于2022-04-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
01-Spark的Local模式与应用开发入门
## 1 Spark 的 local 模式 Spark 运行模式之一,用于在本地机器上单机模拟分布式计算的环境。在 local 模式下,Spark 会使用单个 JVM 进程来模拟分布式集群行为,所
数仓开发之ODS层
优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划。 ## 1 设计要点 (1)ODS层的表结构设计依托于从业务系统同步过
tsv文件在大数据技术栈里的应用场景
是的,`\t` 是指制表符(tab),它通常用作字段分隔符在 TSV(Tab-Separated Values)格式的文件中。TSV是一种简单的文本格式,它使用制表符来分隔每一列中的值,而每一行则代
全网最全图解Kafka适用场景
## 消息系统 消息系统被用于各种场景,如解耦数据生产者,缓存未处理的消息。Kafka 可作为传统的消息系统的替代者,与传统消息系统相比,kafka有更好的吞吐量、更好的可用性,这有利于处理大规模
Spark安装及启动
相关源码 1 Spark环境安装 scala语言编写,提供多种语言接口,需要JVM。官方为我们提供了Spark 编译好的版本,可以不必进行手动编译。 Spark安装不难,配置需要注意,并且不一定需要H
流处理技术(4)-消息传递系统场景
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第4天,点击查看活动详情 直接从Pro传递给Con 许多消息传递系统使用Pro和Con之间的直接网络通信,而不通过中间节点: UD
流处理技术(3)-消息传递系统导论
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第3天,点击查看活动详情 向消费者通知新事件的常用方式 消息传递系统(messaging system):Pro发送包含事件的消息
流处理技术(2)-传递事件流
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第2天,点击查看活动详情 批处理领域,作业的输入和输出是文件(也许在分布式文件系统)。流处理领域中的等价物是啥呢? 当输入是一个文
流处理技术(1)-概述
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第1天,点击查看活动详情 批处理技术,它读取一组文件作为输入,并生成一组新的文件作为输出。输出是 衍生数据(derived dat
如何快速开发大数据系统
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第28天,点击查看活动详情。 这可视化性能数据从何来?如何在图中将性能指标和任务进度结合起来,可以一目了然看清应用在不同运行阶段的资源
深入理解Spark原理,从性能优化入手
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第27天,点击查看活动详情。 1 Spark任务文件初始化调优 首先进行性能测试,发现这个视频图谱N度级联关系应用分为5个job,最后
大数据技术性能优化方法论
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第26天,点击查看活动详情。 主流大数据技术都是开源的: Hadoop大数据存储与计算产品 Hive、Spark SQL大数据仓库 S
大数据技术到底该如何学习?
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第24天,点击查看活动详情。 技术场景 大数据技术可分类如下: 存储 计算 资源管理 HDFS 最基本的存储技术。日常应用把通过各种渠
ZooKeeper在大数据系统中的意义
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第19天,点击查看活动详情。 服务器集群环境的各种故障随时可能发生,多台服务器对一个数据的记录保持一致是一项重大挑战。 HDFS 为保
Spark架构原理
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第17天,点击查看活动详情。 相比MapReduce僵化的Map与Reduce分阶段计算相比,Spark的计算框架更加富有弹性和灵活性
Google的最后一驾马车BigTable实现之HBase原理详解
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第16天,点击查看活动详情。 在计算机数据存储领域,一直是关系数据库(RDBMS)的天下,以至于在传统企业的应用领域,许多应用系统设计
Spark,一个奇迹的诞生!
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第15天,点击查看活动详情。 UC Berkeley的AMP Lab推出的Spark更快执行速度和更友好的编程接口,在推出后短短两年就
Hive执行原理
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第14天,点击查看活动详情。 MapReduce简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用Ma
大数据学习常见问题
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第12天,点击查看活动详情。 Hadoop几个主要产品的架构都是一主多从。HDFS,一个NameNode,多个DataNode;Map
Yarn为何能坐实资源调度框架之王?
一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第8天,点击查看活动详情。 Hadoop主要组成: 分布式文件系统HDFS 分布式计算框架MapReduce 分布式集群资源调度框架Y