稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
  • 全部
  • 后端
  • Java
  • 面试
  • Go
  • 架构
  • Python
  • Spring Boot
  • 前端
  • MySQL
  • 展开
  • 全部
  • 后端
  • Java
  • 面试
  • Go
  • 架构
  • Python
  • Spring Boot
  • 前端
  • MySQL
  • Linux
  • 数据库
  • Spring
  • GitHub
  • 大数据
  • HarmonyOS
  • 暂无数据
    • 推荐
    • 最新
  • 大数据-93 SparkSQL 全面解析:SQL + 分布式计算的完美结合
    上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。
    • 武子康
    • 3
    • 点赞
    后端 大数据 Spark
    大数据-93 SparkSQL 全面解析:SQL + 分布式计算的完美结合
  • Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
    一、JVM层面的性能陷阱 Hadoop生态中的NameNode、DataNode等核心组件均运行在JVM之上,其性能表现与JVM配置息息相关。实际生产环境中,我们发现约35%的性能问题源于不合理的JV
    • Homi
    • 13
    • 1
    Hadoop 大数据
    Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
  • Google GFS 深度解析:分布式文件系统的开山之作
    Google GFS 深度解析:分布式文件系统的开山之作 Google 文件系统(GFS)作为分布式存储领域的里程碑技术,其设计理念深刻影响了 HDFS、TFS 等后续系统。GFS 专为大规模数据处理
    • isfox
    • 14
    • 点赞
    大数据 Hadoop
  • 大数据-92 Spark 深入解析 Spark Standalone 模式:组件构成、提交流程与性能优化
    集群由 Driver、Master、Worker、Executor 四个核心组件组成。Driver 负责解析用户应用,将逻辑转化为 DAG 并调度任务;Master 作为集群管理器,监控 Worker
    • 武子康
    • 12
    • 1
    后端 大数据 Spark
    大数据-92 Spark 深入解析 Spark Standalone 模式:组件构成、提交流程与性能优化
  • Hadoop异常处理机制:优雅处理失败任务
    一、分布式计算中的异常归因分析 在Hadoop集群的运行过程中,任务失败往往呈现出多维度的特征。通过对生产环境日志的统计分析(见图1),我们发现任务失败的主要诱因可归纳为三类: 资源竞争类异常:包含J
    • Homi
    • 30
    • 1
    Hadoop 大数据
    Hadoop异常处理机制:优雅处理失败任务
  • 大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程
    在Spark分布式计算中,广播变量是一种高效共享只读数据的机制。Driver会将数据广播到各Executor,每个Executor仅需接收一次副本,避免了任务间重复传输,显著降低了网络开销。
    • 武子康
    • 15
    • 1
    后端 大数据 Spark
    大数据-91 Spark广播变量:高效共享只读数据的最佳实践 RDD+Scala编程
  • 大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
    在Spark中,RDD的容错机制主要依赖于检查点(Checkpoint)。检查点通过将RDD数据持久化到可靠的分布式存储(如HDFS),实现故障恢复和依赖链截断,区别于Persist/Cache等本地
    • 武子康
    • 32
    • 1
    后端 大数据 Spark
    大数据-90 Spark RDD容错机制:Checkpoint原理、场景与最佳实践 容错机制详解
  • 大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理
    Spark的Driver-Executor架构中,Driver通过SparkContext负责资源申请、任务调度与监控,而Executor则执行具体计算。由于两者运行在不同进程中,进程间通信需依赖序列
    • 武子康
    • 27
    • 1
    后端 大数据 Spark
    大数据-89 Spark应用必备:进程通信、序列化机制与RDD执行原理
  • Hadoop数据处理流水线设计:提高作业执行效率
    一、流水线架构的核心挑战 在Hadoop生态系统中,构建高效的数据处理流水线需要解决三个核心矛盾:数据吞吐量与处理延迟的平衡、计算资源利用率与任务调度开销的博弈、数据一致性与系统容错能力的权衡。某电商
    • Homi
    • 45
    • 1
    Hadoop 大数据
  • 大数据-88 Spark Super Word Count 全流程实现(Scala + MySQL)
    Super Word Count 项目旨在实现一个高效的文本预处理与词频统计系统,并支持结果写入 MySQL。整体流程包括五个步骤:文本统一小写、标点符号清理、停用词过滤、词频统计与排序、以及数据存储
    • 武子康
    • 33
    • 1
    后端 大数据 Spark
    大数据-88 Spark Super Word Count 全流程实现(Scala + MySQL)
  • Flink+Dinky实现UDF自定义函数
    Flink+Dinky实现UDF自定义函数 前言 在大数据中,Apache Flink 以其流批一体的架构、亚秒级延迟和精确一次处理的特性,成为实时计算领域的领头羊。但当面对千变万化的业务场景时,你是
    • IT果果日记
    • 33
    • 点赞
    后端 Flink 大数据
  • 学习笔记:在PySpark中使用UDF
    最近经常使用PySpark进行数据处理,在面对复杂逻辑的时候需要编写自定义函数(UDF:User-defined Functions)。经过学习后 在pyspark中使用自定义函数有三种方式
    • 凉凉的知识库
    • 57
    • 1
    Spark 大数据 Python
    学习笔记:在PySpark中使用UDF
  • MapReduce自定义Partitioner实战经验分享
    一、理解Partitioner的核心作用 在MapReduce框架中,Partitioner如同数据处理流水线的交通枢纽。它负责将Mapper输出的键值对分配到对应的Reducer,这个看似简单的操作
    • Homi
    • 26
    • 1
    Hadoop 大数据
    MapReduce自定义Partitioner实战经验分享
  • 大数据-86 Spark+Scala实现WordCount:大数据学习的入门实践
    WordCount程序作为大数据学习的“Hello World”,不仅是入门的第一步,更蕴含了分布式计算的核心思想——分而治之。通过使用Spark和Scala实现,从文本加载、单词拆分、映射到计数归约
    • 武子康
    • 29
    • 1
    后端 大数据 Spark
    大数据-86 Spark+Scala实现WordCount:大数据学习的入门实践
  • HDFS数据备份与恢复:保障数据安全
    一、HDFS数据安全的核心挑战 Hadoop分布式文件系统(HDFS)作为大数据生态的基石,其数据安全性直接影响着企业核心资产。在实际生产环境中,我们面临三类典型风险: 硬件故障:磁盘损坏导致的Blo
    • Homi
    • 33
    • 1
    Hadoop 大数据
    HDFS数据备份与恢复:保障数据安全
  • 大数据-84 Spark RDD创建全攻略:从集合、文件到转换操作详解
    RDD 的创建依赖于 SparkContext,它是 Spark 应用的核心入口,负责与集群管理器建立连接并提供多种功能接口。通过 SparkContext,开发者可以创建 RDD、管理累加器和广播
    • 武子康
    • 58
    • 1
    后端 大数据 Spark
    大数据-84 Spark RDD创建全攻略:从集合、文件到转换操作详解
  • 大数据-83 Spark RDD详解:特性、优势与典型应用场景
    RDD(Resilient Distributed Dataset,弹性分布式数据集)是Spark中最核心的数据抽象,提供了不可变、分区化、可并行处理的分布式集合。其核心特性包括:分区机制保证并行性;
    • 武子康
    • 63
    • 1
    后端 Spark 大数据
    大数据-83 Spark RDD详解:特性、优势与典型应用场景
  • Hadoop作业并行度优化:提升整体处理性能
    一、并行度优化的核心价值与实践误区 在Hadoop生态体系中,作业并行度是决定计算任务执行效率的核心参数。通过合理配置Map和Reduce阶段的并行任务数,可使集群资源利用率提升40%以上。某电商企业
    • Homi
    • 35
    • 2
    Hadoop 大数据
    Hadoop作业并行度优化:提升整体处理性能
  • 大数据-85 Spark Action 操作详解:从 Collect 到存储的全景解析
    Action 是 Spark 中触发实际计算的核心操作,它会将 RDD 的一系列转换真正执行,并返回结果到驱动端或写入外部存储。常见操作可分为几类:数据收集类
    • 武子康
    • 25
    • 2
    后端 大数据 Spark
    大数据-85 Spark Action 操作详解:从 Collect 到存储的全景解析
  • Hadoop3.3.5、Hbase2.6.1 集群搭建&Phoenix使用记录
    背景 :当前我的im聊天系统的消息是存到mysql里的,虽然我做了分库分表,但是本质上这么做是很low的,也并不能满足百万并发的设计目标。so 、调研了半天,我准备使用hbase 做消息存储!
    • 蝎子莱莱爱打怪
    • 181
    • 3
    后端 大数据 HBase
    Hadoop3.3.5、Hbase2.6.1 集群搭建&Phoenix使用记录
  • 晚上好!
    点亮在社区的每一天

    推荐话题 换一换

    #挑战每日一条沸点#
    #挑战每日一条沸点#

    19.7m

    #Trae叕更新了?#
    #Trae叕更新了?#

    680k

    #金石焕新程#

    4.8m

    #每日快讯#

    9.0m

    #MCP 怎么玩#

    637k

    #每天一个知识点#

    40.6m

    #工作中做得最正确的一件事#
    #工作中做得最正确的一件事#

    322k

    #新人报道#

    34.4m

    #掘金一周#

    791k

    #金石计划征文活动#
    #金石计划征文活动#

    36.2m

    查看更多
    • 用户协议
    • 营业执照
    • 隐私政策
    • 关于我们
    • 使用指南
    • 友情链接
    • 更多后端文章
    • 举报邮箱: feedback@xitu.io
    • 座机电话: 010-83434395
    • 京ICP备:18012699号-3
    • 京ICP证:京B2-20191272
    • police 京公网安备11010802026719号
    • ©2025 稀土掘金