bigdata - zhaorong的收藏集 - 掘金

bigdata

更多收藏集

12篇文章 · 0订阅

《HBase 不睡觉》第一章 - 初识 HBase

Partition tolerance（分区容错性）：可靠性。很多人以为 NoSQL 是非 SQL 的意思，其实它是 Not Only SQL 的缩写，意思是不只是 SQL。与关系型数据库正好相反，非关系型数据库 NoSQL 对事务性的要求并不严格，甚至可以说是相当马虎。 …

rochy_he
7年前
5.7k
45
3

Hive使用必知必会系列

1. 内部表/管理表 3. 分区表注意:分区表通常分为静态分区表和动态分区表，前者需要导入数据时静态指定分区，后者可以直接根据导入数据进行分区。分区的好处是可以让数据按照区域进行分类，避免了查询时的全表扫描。注意:在外部分区表中，如果将表删除了，重建表后只需要将分区加载进来…

王知无
7年前
4.1k
4
评论

Flume 在有赞大数据的实践

Flume 是一个分布式的高可靠，可扩展的数据采集服务。 Flume 在有赞的大数据业务中一直扮演着一个稳定可靠的日志数据“搬运工” 的角色。本文主要讲一下有赞大数据部门在 Flume 的应用实践，同时也穿插着我们对 Flume 的一些理解。认识 Flume 对事件投递的可靠…

有赞技术
7年前
2.9k
14
1

了解一下数据仓库

数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享数据仓库是面向主题的，集成的，相对稳定的，反映历史变化的数据集合，用于支持管…

弈超
6年前
3.0k
4
评论

Spark 架构概述

介绍 Spark 生态。介绍 Spark 基本概念和常用术语。介绍 Spark 的执行原理和架构设计。介绍 Spark-Yarn 部署模式。介绍 Saprk RDD 运行原理。 Spark Core：包含了 Spark 的基础 API，比如对于 RDD 的操作 API，…

zero_jz
6年前
1.5k
4
评论

分布式文件系统-HDFS

大数据技术主要要解决的问题的是大规模数据的计算处理问题，那么首先要解决的就是大规模数据的存储问题。大规模数据存储要解决的核心问题有三个方面：数据存储容量的问题，既然大数据要解决的是数以PB计的数据计算问题，而一般的服务器磁盘容量通常1-2TB，那么如何存储这么大规模的数据。 …

王知无
7年前
1.2k
10
评论

Spark实战--寻找5亿次访问中，访问次数最多的人

对于一个大型网站，用户访问量尝尝高达数十亿。对于数十亿是一个什么样的概念，我们这里可以简单的计算一下。对于一个用户，单次访问，我们通常会记录下哪些数据呢？我们单单从用户id来说，比如10011802330414，这个ID，那么我们一个id差不多就是一个long类型，因为在大量…

诗昭
7年前
2.8k
8
评论

hadoop 3.0 集群部署,超详细-Ali0th

经过上一篇部署单机 hadoop 之后，开始尝试部署 hadoop 集群。hadoop集群最少需要三台机，因为hdfs副本数最少为3。这里我们使用四台机子进行搭建。本文尽求详尽，包括所有步骤与问题的解决。可见目录，有对遇到的bug的一些解决方法。可以看到我是如何踩坑过来的。 …

木禾ali0th
7年前
9.3k
7
评论

大数据技术简介

2018年9月30日，中国互联网巨头腾讯公司的总裁刘炽平发出一封全员信，正式启动了公司历史上第三次重大组织架构调整，外界解读腾讯此举是为了把人工智能、大数据和云计算提升到更核心的战略位置，其实不止腾讯，谷歌、亚马逊、阿里巴巴、百度、小米等互联网巨头近年来都在调整组织架构，这些种…

预流
7年前
9.4k
38
2