首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
【spark】
import_random
创建于2024-08-16
订阅专栏
spark
等 1 人订阅
共10篇文章
创建于2024-08-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hadoop、MapReduce、YARN和Spark的区别与联系
(1)Hadoop 1.0 (2)Hadoop 2.0 (3)MapReduce 1.0或者MRv1(MapReduceversion 1) (4)MapReduce 2.0或者MRv2(MapRed
[大数据]spark(介绍)
1/首先了解什么是处理框架?什么是计算引擎? 2/spark是什么?以及为什么会在mapreduce的情况下又出现了spark计算引擎。 3/spark中的2个重要概念 4/spark是怎么进行分布式
[spark框架]面试题
1/Spark解决什么问题 Hadoop主要解决,海量数据的分布式存储和海量数据的分布式分析计算。 Spark主要解决海量数据的分布式分析计算。 (也就是说;spark没有自己的存储系统,它需要和其他
pyspark:ml机器学习工具
0/前言 1/ml包(工具)的概述 <1>转换器transform <2>评估器estimator (1)分类 (2)回归 (3)聚类 <3>管道pipeline
pyspark:集群环境实战
lrDemo.py(基于RDD的mllib) lrDemo_df.py(基于DataFrame的ml)
[大数据]mapreduce ,spark和storm计算引擎比较
一/Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架,都是分布式的框架,各有优点,每种框架都有自己的最佳应用场景。 所以,在不同的应用场景下,应该选择不
spark:RDD(介绍)
1/RDD概念 RDD:Resilient Distributed Dataset 弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 2/RDD
spark:RDD和DataFrame和DataSet的区别
1/RDD、DataFrame和DataSet的定义 2/RDD、DataFrame和DataSet的比较 Spark版本 数据表示形式 数据格式 编译时类型安全 序列化 垃圾回收 效率/内存使用 编
spark:容错机制
参考网址 https://www.cnblogs.com/duanxz/p/6329675.html 前言
spark:dataframe(介绍)
1/DataFrame 2/什么是Spark SQL DataFrame? 3/为什么要用 DataFrame? 4/Apache Spark DataFrame 特性 5/创建DataFrames