首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
spark
巴拉巴拉朵
创建于2023-07-27
订阅专栏
spark相关话题
暂无订阅
共13篇文章
创建于2023-07-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark参数优化
Spark参数优化 spark conf 中加入一些参数,会加速shuffle过程,这里根据数据量实际大小可以调节下面一些参数,实践中会对于大数据量JOIN能加速20%以上 spark.default
HitRecall的scala实现
HitRecall的scala实现 topK推荐中常用评估指标就有HitRecall,这个指标的定义如下 HR@K = NumbersOfHit@K / GT 分母是所有测试集集合,分子是topK推荐
采坑记Memory is not enough for task serialization: java.lang.OutOfMemoryError
采坑记 Memory is not enough for task serialization: java.lang.OutOfMemoryError 背景:一个每天跑的Spark程序突然出现Memo
Spark效率优化之道
Spark效率优化 Join相关 spark conf 中加入一些参数,会加速shuffle过程,这里根据数据量实际大小可以调节下面一些参数,实践中会对于大数据量JOIN能加速20%以上 spark.
scala做embedding的average操作
scala做embedding的average操作 使用 breeze.linalg 来对embedding向量处理 breeze.linalg 库可以对矩阵向量做很多操作,普通的加减乘除,点乘叉乘,
Spark的Word2Vec示例
Spark的Word2Vec示例 这里演示Spark的ml包里面Word2Vec的训练与加载过程;使用spark实现经典的word2vec
scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件
scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件 Hadoop 2.7.0支持修改目录的权限,可以修改成任意权限。这个问题的背景是,如果是某个人生成了一个hdfs路径,同一
Spark DataFrame内置sql函数总结
Spark DataFrame sql函数总结 Spark DataFrame内置了200+个函数供使用,包括聚合、集合、时间、字符串、数学、排序、窗口、UDF等多类函数,是个十分齐全的百宝箱,灵活运
Spark批量读写Redis
Spark批量读写Redis 需要新加入Redis的依赖 连接客户端 首先需要拿到Redis的客户端,Redis的客户端需要知道你的用户名和密码、ip地址和端口号,知道就可以连上Redis了 批量删除
FastJson在scala中序列化与反序列化
FastJson与Gson在scala中序列化与反序列化 Alibaba的一款开源JSON组件FastJson,非常好用,在序列化和反序列化方面性能突出,而且API接口简单易用,算是处理JSON的一大
Spark DataFrame学习笔记
Spark DataFrame学习笔记 对于结构性数据,Spark的DataFame是一大利器,Spark的DataFrame相比于RDD来讲做了很多底层的优化,在数据处理上面非常有效。Spark使用
Scala操作HDFS
Scala操作HDFS 基本的HDFS操作包括:获取文件系统、检查文件是否存在、列举当前目录下的所有文件路径、列举当前目录下的所有文件名称、删除当前路径、创建新的路径
Spark的flatMap算子引发的数据倾斜问题
Spark的flatMap算子引发的数据倾斜问题 问题背景 Spark中有时候会用到flatMap算子来处理数据,flatMap把序列打平,即将每一条记录变成多条记录。这个算子在数据量大的时候经常会发