spark

spark

spark

spark相关话题

暂无订阅共13篇文章创建于2023-07-27

Spark参数优化

Spark参数优化 spark conf 中加入一些参数，会加速shuffle过程，这里根据数据量实际大小可以调节下面一些参数，实践中会对于大数据量JOIN能加速20%以上 spark.default

2年前
433
点赞
评论

HitRecall的scala实现

HitRecall的scala实现 topK推荐中常用评估指标就有HitRecall，这个指标的定义如下 HR@K = NumbersOfHit@K / GT 分母是所有测试集集合，分子是topK推荐

2年前
127
点赞
评论

采坑记Memory is not enough for task serialization: java.lang.OutOfMemoryError

采坑记 Memory is not enough for task serialization: java.lang.OutOfMemoryError 背景：一个每天跑的Spark程序突然出现Memo

2年前
254
点赞
评论

Spark效率优化之道

Spark效率优化 Join相关 spark conf 中加入一些参数，会加速shuffle过程，这里根据数据量实际大小可以调节下面一些参数，实践中会对于大数据量JOIN能加速20%以上 spark.

2年前
254
点赞
评论

scala做embedding的average操作

scala做embedding的average操作使用 breeze.linalg 来对embedding向量处理 breeze.linalg 库可以对矩阵向量做很多操作，普通的加减乘除，点乘叉乘，

2年前
99
点赞
评论

Spark的Word2Vec示例

Spark的Word2Vec示例这里演示Spark的ml包里面Word2Vec的训练与加载过程；使用spark实现经典的word2vec

2年前
73
点赞
评论

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件 Hadoop 2.7.0支持修改目录的权限，可以修改成任意权限。这个问题的背景是，如果是某个人生成了一个hdfs路径，同一

2年前
314
点赞
评论

Spark DataFrame内置sql函数总结

Spark DataFrame sql函数总结 Spark DataFrame内置了200+个函数供使用，包括聚合、集合、时间、字符串、数学、排序、窗口、UDF等多类函数，是个十分齐全的百宝箱，灵活运

2年前
135
点赞
评论

Spark批量读写Redis

Spark批量读写Redis 需要新加入Redis的依赖连接客户端首先需要拿到Redis的客户端，Redis的客户端需要知道你的用户名和密码、ip地址和端口号，知道就可以连上Redis了批量删除

2年前
348
点赞
评论

FastJson在scala中序列化与反序列化

FastJson与Gson在scala中序列化与反序列化 Alibaba的一款开源JSON组件FastJson，非常好用，在序列化和反序列化方面性能突出，而且API接口简单易用，算是处理JSON的一大

2年前
304
点赞
评论

Spark DataFrame学习笔记

Spark DataFrame学习笔记对于结构性数据，Spark的DataFame是一大利器，Spark的DataFrame相比于RDD来讲做了很多底层的优化，在数据处理上面非常有效。Spark使用

2年前
117
点赞
评论

Scala操作HDFS

Scala操作HDFS 基本的HDFS操作包括：获取文件系统、检查文件是否存在、列举当前目录下的所有文件路径、列举当前目录下的所有文件名称、删除当前路径、创建新的路径

2年前
350
点赞
评论

Spark的flatMap算子引发的数据倾斜问题

Spark的flatMap算子引发的数据倾斜问题问题背景 Spark中有时候会用到flatMap算子来处理数据，flatMap把序列打平，即将每一条记录变成多条记录。这个算子在数据量大的时候经常会发

2年前
211
点赞
评论