首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
推荐
订阅
邋遢
更多收藏集
微信扫码分享
微信
新浪微博
QQ
19篇文章 · 0订阅
在线上服务中使用 Spark MLlib
即刻上有很多有趣的即友和好玩的圈子,如何帮助用户发现喜欢的圈子、找到自己人,是即刻推荐团队一直以来的愿景。在这篇文章中,我们将介绍即刻推荐系统中一个组件——基于Spark的机器学习库,以及它是如何解决在线预测和离线训练的矛盾的。 首先,我们将介绍推荐系统中的两种计算环境,以及它…
Spark 之 Shuffle调优
Shuffle调优一:调节map端缓冲区大小 在Spark任务运行过程中,如果shuffle的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢
Spark的Shuffle总结分析
Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进…
Spark之UDF和UDAF函数介绍
前言 UDF、UDAF、UDTF都是用户自定义函数,用户可以通过 spark.udf 功能添加自定义函数,实现自定义功能。 UDF:用户自定义函数(User Defined Function),一行输
Spark 大厂面试题
Spark解决什么问题 二 Spark为什么会有自己的资源调度器 三 Spark运行模式 四 Spark常用端口号 五 Spark提交作业参数 六 Spark的transformation算子
Spark 大厂面试题
Kryo序列化 Kryo序列化比Java序列化更快更紧凑,但Spark默认的序列化是Java序列化并不是Spark序列化,因为Spark并不支持所有序列化类型,而且每次使用都必须进行注册。注册只针对于
大数据技术漫谈 ——从Hadoop、Storm、Spark、HBase到Hive、Flink、Lindorm
一、前言 笔者曾效力于新浪广告DMP组,跑过MapReduce,也写过Storm、Spark Streaming、Hive;也曾作为阿里巴巴回血红包的技术负责人,使用Blink扛住双十一80万QPS流
流动的推荐系统 - 兴趣 Feed 技术架构与实现
Feed 是一种信息流,就是我们看到的 “动态”、“新鲜事”。当用户与一些内容源建立了连接(如关注、赞、收藏等)之后,这些内容源产生的新动作,就会源源不断地通过连接流向用户,不同内容源产生的动态被聚合后呈现在用户面前,就是 Feed。
《Python实例》震惊了,用Python这么简单实现了聊天系统的脏话,广告检测
小知识,大挑战!本文正在参与“ 程序员必备小知识 本文同时参与 「掘力星计划」 ,赢取创作大礼包,挑战创作激励金 在游戏中聊天功能几乎是必备的功能,这样的功能存在一定的问题那就是会导致世界频道很乱,经
用 python 写一个简单的推荐系统
在上篇文章豆瓣电影,电视剧 DM 实战中提及到,我和室友们产生了剧荒,萌生出要做一个个人用的推荐系统,解决剧荒的问题,经过一轮的死缠烂打,这个个人推荐系统终于成型了。