首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
后端
Java
面试
Go
架构
Python
Spring Boot
前端
MySQL
展开
全部
后端
Java
面试
Go
架构
Python
Spring Boot
前端
MySQL
Linux
数据库
Spring
GitHub
大数据
HarmonyOS
暂无数据
推荐
最新
大数据-93 SparkSQL 全面解析:SQL + 分布式计算的完美结合
上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。
Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
一、JVM层面的性能陷阱 Hadoop生态中的NameNode、DataNode等核心组件均运行在JVM之上,其性能表现与JVM配置息息相关。实际生产环境中,我们发现约35%的性能问题源于不合理的JV
Google GFS 深度解析:分布式文件系统的开山之作
Google GFS 深度解析:分布式文件系统的开山之作 Google 文件系统(GFS)作为分布式存储领域的里程碑技术,其设计理念深刻影响了 HDFS、TFS 等后续系统。GFS 专为大规模数据处理
大数据-92 Spark 深入解析 Spark Standalone 模式:组件构成、提交流程与性能优化
集群由 Driver、Master、Worker、Executor 四个核心组件组成。Driver 负责解析用户应用,将逻辑转化为 DAG 并调度任务;Master 作为集群管理器,监控 Worker
Hadoop异常处理机制:优雅处理失败任务
一、分布式计算中的异常归因分析 在Hadoop集群的运行过程中,任务失败往往呈现出多维度的特征。通过对生产环境日志的统计分析(见图1),我们发现任务失败的主要诱因可归纳为三类: 资源竞争类异常:包含J
大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程
在Spark分布式计算中,广播变量是一种高效共享只读数据的机制。Driver会将数据广播到各Executor,每个Executor仅需接收一次副本,避免了任务间重复传输,显著降低了网络开销。
大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
在Spark中,RDD的容错机制主要依赖于检查点(Checkpoint)。检查点通过将RDD数据持久化到可靠的分布式存储(如HDFS),实现故障恢复和依赖链截断,区别于Persist/Cache等本地
大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理
Spark的Driver-Executor架构中,Driver通过SparkContext负责资源申请、任务调度与监控,而Executor则执行具体计算。由于两者运行在不同进程中,进程间通信需依赖序列
Hadoop数据处理流水线设计:提高作业执行效率
一、流水线架构的核心挑战 在Hadoop生态系统中,构建高效的数据处理流水线需要解决三个核心矛盾:数据吞吐量与处理延迟的平衡、计算资源利用率与任务调度开销的博弈、数据一致性与系统容错能力的权衡。某电商
大数据-88 Spark Super Word Count 全流程实现(Scala + MySQL)
Super Word Count 项目旨在实现一个高效的文本预处理与词频统计系统,并支持结果写入 MySQL。整体流程包括五个步骤:文本统一小写、标点符号清理、停用词过滤、词频统计与排序、以及数据存储
Flink+Dinky实现UDF自定义函数
Flink+Dinky实现UDF自定义函数 前言 在大数据中,Apache Flink 以其流批一体的架构、亚秒级延迟和精确一次处理的特性,成为实时计算领域的领头羊。但当面对千变万化的业务场景时,你是
学习笔记:在PySpark中使用UDF
最近经常使用PySpark进行数据处理,在面对复杂逻辑的时候需要编写自定义函数(UDF:User-defined Functions)。经过学习后 在pyspark中使用自定义函数有三种方式
MapReduce自定义Partitioner实战经验分享
一、理解Partitioner的核心作用 在MapReduce框架中,Partitioner如同数据处理流水线的交通枢纽。它负责将Mapper输出的键值对分配到对应的Reducer,这个看似简单的操作
大数据-86 Spark+Scala实现WordCount:大数据学习的入门实践
WordCount程序作为大数据学习的“Hello World”,不仅是入门的第一步,更蕴含了分布式计算的核心思想——分而治之。通过使用Spark和Scala实现,从文本加载、单词拆分、映射到计数归约
HDFS数据备份与恢复:保障数据安全
一、HDFS数据安全的核心挑战 Hadoop分布式文件系统(HDFS)作为大数据生态的基石,其数据安全性直接影响着企业核心资产。在实际生产环境中,我们面临三类典型风险: 硬件故障:磁盘损坏导致的Blo
大数据-84 Spark RDD创建全攻略:从集合、文件到转换操作详解
RDD 的创建依赖于 SparkContext,它是 Spark 应用的核心入口,负责与集群管理器建立连接并提供多种功能接口。通过 SparkContext,开发者可以创建 RDD、管理累加器和广播
大数据-83 Spark RDD详解:特性、优势与典型应用场景
RDD(Resilient Distributed Dataset,弹性分布式数据集)是Spark中最核心的数据抽象,提供了不可变、分区化、可并行处理的分布式集合。其核心特性包括:分区机制保证并行性;
Hadoop作业并行度优化:提升整体处理性能
一、并行度优化的核心价值与实践误区 在Hadoop生态体系中,作业并行度是决定计算任务执行效率的核心参数。通过合理配置Map和Reduce阶段的并行任务数,可使集群资源利用率提升40%以上。某电商企业
大数据-85 Spark Action 操作详解:从 Collect 到存储的全景解析
Action 是 Spark 中触发实际计算的核心操作,它会将 RDD 的一系列转换真正执行,并返回结果到驱动端或写入外部存储。常见操作可分为几类:数据收集类
Hadoop3.3.5、Hbase2.6.1 集群搭建&Phoenix使用记录
背景 :当前我的im聊天系统的消息是存到mysql里的,虽然我做了分库分表,但是本质上这么做是很low的,也并不能满足百万并发的设计目标。so 、调研了半天,我准备使用hbase 做消息存储!