首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
01-大数据
Yangs
创建于2022-05-27
订阅专栏
BigData
暂无订阅
共4篇文章
创建于2022-05-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark RDD
一、RDD简介 Resilient Distributed DataSet:弹性分布式数据集 弹性:Spark可以通过重新安排计算来自动重建丢失的分区。 分布式:集群中跨多个机器分区存储。 RDD是一
Window安装Spark环境
我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第7篇文章,点击查看活动详情 spark版本:spark-3.0.0-bin-hadoop2.7 一、安装JDK 略 二、安装Hadoop 下载h
Windows安装PySpark环境
一、安装步骤概览 前提:windows已有spark环境 1.安装Anoconda 2.用Anoconda安装Jupyter notebook 3.用Anoconda安装PySpark 4.运行Jup
数据仓库
一、面试模块 1.数仓为什么要分层? 1.清晰的数据结构:每一个数据都有对应的作用域,方便定位和理解。 2.数据血缘回溯:快速准确定位问题,清楚哪个数据集市或应用层的问题。 3.减少重复开发:规范数据