巴拉巴拉朵

赞

0

|

搜索文章

采坑记Memory is not enough for task serialization: java.lang.OutOfMemoryError

采坑记 Memory is not enough for task serialization: java.lang.OutOfMemoryError 背景：一个每天跑的Spark程序突然出现Memo

2年前
272
点赞
评论

Spark效率优化之道

Spark效率优化 Join相关 spark conf 中加入一些参数，会加速shuffle过程，这里根据数据量实际大小可以调节下面一些参数，实践中会对于大数据量JOIN能加速20%以上 spark.

2年前
274
点赞
评论

ESMM模型笔记

ESMM模型笔记背景 ESMM模型是阿里算法团队关于CVR预估提出的新模型，思路很新颖，对于CVR预估有很强的参考意义。而且里面的多个目标其实可以根据实际业务进行替换，可以快速尝试应用，想象力空间很

2年前
266
点赞
评论

scala做embedding的average操作

scala做embedding的average操作使用 breeze.linalg 来对embedding向量处理 breeze.linalg 库可以对矩阵向量做很多操作，普通的加减乘除，点乘叉乘，

2年前
112
点赞
评论

Spark的Word2Vec示例

Spark的Word2Vec示例这里演示Spark的ml包里面Word2Vec的训练与加载过程；使用spark实现经典的word2vec

2年前
84
点赞
评论

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件

scala操作Hadoop Api改变目录权限成777及写入单个hdfs文件 Hadoop 2.7.0支持修改目录的权限，可以修改成任意权限。这个问题的背景是，如果是某个人生成了一个hdfs路径，同一

2年前
334
点赞
评论

Spark DataFrame内置sql函数总结

Spark DataFrame sql函数总结 Spark DataFrame内置了200+个函数供使用，包括聚合、集合、时间、字符串、数学、排序、窗口、UDF等多类函数，是个十分齐全的百宝箱，灵活运

2年前
155
点赞
评论

Spark批量读写Redis

Spark批量读写Redis 需要新加入Redis的依赖连接客户端首先需要拿到Redis的客户端，Redis的客户端需要知道你的用户名和密码、ip地址和端口号，知道就可以连上Redis了批量删除

2年前
368
点赞
评论

Python实现均匀拆分大文件

Python实现均匀拆分大文件对于大文件业务中有时候需要进行均匀拆分后分别进行处理，这里用python实现了均匀拆分，设定拆分的目标文件数量，输入路径（必须是一个目录），会自动进行拆分

2年前
149
点赞
评论

Notification Volume Control and Optimization System at Pinterest 小记

Notification Volume Control and Optimization System at Pinterest 论文地址：https://labs.pinterest.com/ass

2年前
277
点赞
评论

个人成就

文章被点赞 2

文章被阅读 23,740

加入于

2023-07-24