首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术组件
Maynor在掘金
创建于2021-06-25
订阅专栏
大数据组件包括:MapReduce HDFS Hive HBase Zookeeper等
等 42 人订阅
共84篇文章
创建于2021-06-25
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
[Spark精进]必须掌握的4个RDD算子之mapPartitions算子
小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 返回第一章 第二个mapPartitions:以数据分区为粒度的数据转换 按照介绍算子的惯例,我们还是先来说说 mapPartitions
[Spark精进]必须掌握的4个RDD算子之map算子
小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 序章 第一个map. 以元素为粒度的数据转换 我们先来说说 map 算子的用法:给定映射函数 f,map(f) 以元素为粒度对 RDD 做数
❤️Hive的基本知识(三)Hive中的函数大全❤️
小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 💃 Hive中的函数 针对内置的函数,可以根据函数的应用类型进行归纳分类,比如:数值类型函数、日期类型函数、字符 串类型函数、集合函数、条件
❤️Hive的基本知识(二)Hive中的各种表❤️
小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 🌹内部表: 内部表也称为被Hive拥有和管理的托管表(Managed table)。默认情况下创建的表就是内部表,Hive拥有该表的结构和文
❤️hadoop常用命令总结及百万调优❤️
小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。 常用命令 1、–ls:查看指定目录下内容 2、–cat:显示文件内容 3、–put:将本地文件存储至hadoop 4、–put:将本地文
❤️hadoop必知必会的基本知识❤️
这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分。
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spakr数据调优(文末附完整文档)
前言 @[toc] 停🤚 不要往下滑了, 默默想5min, 看看这些面试题你都会吗? 一个CPU core同一时间只能执行一个线程。而每个Executor进程上分配到的多个task,都是以每个task
大数据面试:面试官要求我了解过Presto——Presto到底是个什么东西| 8月更文挑战
前言 事情是这样的 我在实习僧App上发现一家公司非常匹配我的需求~ 城市匹配 技能匹配 福利匹配 还是一家游戏公司 (典型的钱多离家近,事估计少不了了 ) 三配下来我不得不认真研究该公司的职位要求:
❤️大数据专业的学妹问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】❤️
「本文已参与好文召集令活动,点击查看:后端、大前端双赛道投稿,2万元奖池等你挑战!」 前言 前两天有学妹私信我说,她已经上完大一,大数据专业的,只学过大数据导论,问我大数据该如何入门?我不禁感慨普通高
❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】
「本文已参与好文召集令活动,点击查看:后端、大前端双赛道投稿,2万元奖池等你挑战!」 前言 manor学习大数据开发满打满算也有一年了,其中也发现不少好用的大数据开发提升效率的软件,推荐给刚入门/入行
2021年最新最全Flink系列教程__Flink综合案例(九)
day09_综合案例 今日目标 Flink FileSink 落地写入到 HDFS FlinkSQL 整合 Hive数据仓库 订单自动好评综合案例 Flink FileSink 落地写入到 HDFS
学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问
前言 时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日, 那为师便来考考你学的如何: 问题1:Rowkey如何设计,设计规则是什么? 业务原则:贴合业务,保证前缀是最常用的查询字段
阿里巴巴大数据实践|实时技术篇大促挑战&保障(四)
前言 以上是实时技术篇的思维导图 ~ 接下来几篇 manor将更新正在阅读的《阿里巴巴大数据实践》的第五章实时技术 大促特征 大促和日常比较,在数据量以及要求上有非常大的区别,日常不怎 么关注的点,在
阿里巴巴大数据实践|实时技术篇流式数据模型(三)
前言 以上是实时技术篇的思维导图 ~ 接下来几篇 manor将更新正在阅读的《阿里巴巴大数据实践》的第五章实时技术 1 数据分层 在流式数据模型中,数据模型整体上分为五层。 1.ODS 离线系统的定义
阿里巴巴大数据实践|实时技术篇流式技术架构(二)
前言 以上是实时技术篇的思维导图 ~ 接下来几篇 manor将更新正在阅读的《阿里巴巴大数据实践》的第五章实时技术 2 流式技术架构 在流式计算技术中,需要各个子系统之间相互依赖形成一条数据处 理链路
2021年最新最全Flink系列教程__Flink高级特性和新特性(八)
day08_Flink高级特性和新特性 今日目标 BroadcastState状态管理 Flink DataStream 双流 Join Streaming File sink 落地 File Sin
2021年最新最全Flink系列教程__FlinkTable&SQL(六、七)
day06-07_FlinkSQL&Table 今日目标 了解Flink Table&SQL发展历史 了解为什么要使用Table API & SQL 掌握Flink Table&SQL进行批处理开发
2021年最新最全Flink系列教程__Flink容错机制(五)
day05_Flink容错机制 今日目标 Flink容错机制之Checkpoint Flink容错机制之重启策略 存储介质StateBackend Checkpoint 配置方式 状态恢复和重启策略
阿里巴巴大数据实践|实时技术篇简介(一)
前言 以上是实时技术篇的思维导图 ~ 接下来几篇 manor将更新正在阅读的《阿里巴巴大数据实践》的第五章实时技术 1 简介 相对于离线批处理技术,流式实时处理技术作为一个非常重要的技 术补充,在阿里
2021年最新最全Flink系列教程__Flink高级API(三)
day03_Flink高级API 今日目标 Flink的四大基石 Flink窗口Window操作 Flink时间Time Flink水印Watermark机制 Flink的state状态管理-keye
下一页