大数据 - 沉浮1314的收藏集 - 掘金

大数据

更多收藏集

170篇文章 · 0订阅

Hadoop分布式集群的搭建

所有的节点均创建一个名为hadoop的用户，并添加管理员权限。修改 /etc/hostname文件，每个节点都要修改。从节点分别修改为：Slave01,Slave02,... 检查各个节点是否能相互ping通。如果修改过主机名，需要重新生成的新的公钥。在Master中验…

foochane
6年前
408
1
评论

Hive集群合并之应用端的负载均衡算法

有这么一个场景，我们有两个Hive集群，Hive集群1（后面成为1号集群）是一直专享于数据计算平台的，而Hive集群2（后面成为2号集群）是用于其他团队使用的，比如特征，广告等。而由此存在两个主要问题：a) 两个Hive集群共享了同一份MetaData，导致经常会出现在HUE（…

弈超
6年前
761
1
评论

聊聊Lambda架构

在数据分析场景中，我们可能会遇到这样的问题。例如，我们要做一个推荐系统，如果我们用批处理任务去做，一天或者一小时的推荐频次明显延迟太大。如果用流处理任务，虽然延迟的问题解决了，然而只用实时数据而没有历史数据，那么准确性就无法保证。因此需要结合批处理的历史数据和流处理的实时数据进…

渡码
6年前
753
1
评论

基于邻域的协同过滤

此篇使用朴素的代码介绍基于邻域的协同过滤算法机制。为了使说明过程更清楚，这里使用自已编造的数据。每一行记录着某用户对某本书的评分，评分区间为1至5。现在根据加载进来的数据生成推荐系统中至关重要的用户物品关系矩阵。可以理解为数据库中的一张表，一本书为一列，一行对应一个用户，当…

guerbai
7年前
906
3
评论

「大数据」这么神奇，可为什么不能指明设计的方向？

多年以前，当我们刚刚开始频繁听到「大数据」这个词的时候，很多企业和团队的负责人开始认为，这是他们所缺少的东西，是让产品和企业重振雄风的蓝色小药丸。直到今天，大多数人仍然相信，大数据能够比我们人类自己「更懂人类」，并且提供更优的解决方案。但是，很遗憾的是，即使大数据相关的技术已…

一条PM
7年前
629
9
1

K8s 集群节点在线率达到 99.9% 以上，扩容效率提升 50%，我们做了这 3 个深度改造

规模化落地：2019 年 618 之后，阿里巴巴集团内部开始全面推动 Kubernetes 落地，在大促之前完成了全部核心应用运行在 Kubernetes 的目标，并完美支撑了双11 大考。本文将分享阿里巴巴这几年对于这些问题的思考。答案很明显：拥抱 Kubernetes …

阿里云云栖号
6年前
418
1
评论

Spark学习（二）——RDD基础

1. RDD概述 RDD 是 Spark 的计算模型。RDD（Resilient Distributed Dataset）叫做弹性的分布式数据集合，是 Spark 中最基本的数据抽象，它代表一个不可变、只读的，被分区的数据集。操作 RDD 就像操作本地集合一样，有很多的方法可以…

Hiway
7年前
1.6k
1
评论