首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
沉浮1314
更多收藏集
微信扫码分享
微信
新浪微博
QQ
170篇文章 · 0订阅
Hadoop分布式集群的搭建
所有的节点均创建一个名为hadoop的用户,并添加管理员权限。 修改 /etc/hostname文件,每个节点都要修改。 从节点分别修改为:Slave01,Slave02,... 检查各个节点是否能相互ping通。 如果修改过主机名,需要重新生成的新的公钥。 在Master中验…
Hive集群合并之应用端的负载均衡算法
有这么一个场景,我们有两个Hive集群,Hive集群1(后面成为1号集群)是一直专享于数据计算平台的,而Hive集群2(后面成为2号集群)是用于其他团队使用的,比如特征,广告等。而由此存在两个主要问题:a) 两个Hive集群共享了同一份MetaData,导致经常会出现在HUE(…
聊聊Lambda架构
在数据分析场景中,我们可能会遇到这样的问题。例如,我们要做一个推荐系统,如果我们用批处理任务去做,一天或者一小时的推荐频次明显延迟太大。如果用流处理任务,虽然延迟的问题解决了,然而只用实时数据而没有历史数据,那么准确性就无法保证。因此需要结合批处理的历史数据和流处理的实时数据进…
基于邻域的协同过滤
此篇使用朴素的代码介绍基于邻域的协同过滤算法机制。 为了使说明过程更清楚,这里使用自已编造的数据。每一行记录着某用户对某本书的评分,评分区间为1至5。 现在根据加载进来的数据生成推荐系统中至关重要的用户物品关系矩阵。可以理解为数据库中的一张表,一本书为一列,一行对应一个用户,当…
「大数据」这么神奇,可为什么不能指明设计的方向?
多年以前,当我们刚刚开始频繁听到「大数据」这个词的时候,很多企业和团队的负责人开始认为,这是他们所缺少的东西,是让产品和企业重振雄风的蓝色小药丸。 直到今天,大多数人仍然相信,大数据能够比我们人类自己「更懂人类」,并且提供更优的解决方案。但是,很遗憾的是,即使大数据相关的技术已…
K8s 集群节点在线率达到 99.9% 以上,扩容效率提升 50%,我们做了这 3 个深度改造
规模化落地:2019 年 618 之后,阿里巴巴集团内部开始全面推动 Kubernetes 落地,在大促之前完成了全部核心应用运行在 Kubernetes 的目标,并完美支撑了 双11 大考。 本文将分享阿里巴巴这几年对于这些问题的思考。答案很明显:拥抱 Kubernetes …
Spark学习(二)——RDD基础
1. RDD概述 RDD 是 Spark 的计算模型。RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是 Spark 中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。操作 RDD 就像操作本地集合一样,有很多的方法可以…