大数据 - user7750638035813的收藏集 - 掘金

大数据

user7750638035813

更多收藏集

40篇文章 · 0订阅

SQL 统计连续登陆与留存率

1.sql统计连续登录用户； 2.sql计算两种常用的留存率。 mysql环境，主要使用窗口函数和自连接。

xiaooh
4年前
3.6k
7
评论

大数据现状和未来展望--百度大数据主任架构师马如悦访谈

导读：6 月 1 ~ 2 日，GIAC 全球互联网架构大会将于深圳举行。GIAC 是一个面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有腾讯、阿里巴巴、百度、今日头条、科大讯飞、新浪微博、小米、美图、Oracle、链家、唯品会、京东、饿了么、美团…

MSUP31888
7年前
575
点赞
评论

Spark学习（一）——运行模式与运行流程

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce和Storm流式实时计算引擎等。 Executor: 某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Appl…

Hiway
6年前
4.7k
5
评论

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

know more, do better

taotaoli
9年前
2.5k
29
评论

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

数据库存储系列（1）列式存储

从数据的存储和检索角度看，我们通常会将数据库系统分为两类：OLTP, OLAP。这个划分体现了我们对于数据存储效率，查询效率在不同场景下的预期。

ag9920
3年前
1.3k
3
1

什么是列式存储，一文秒懂

我们最先接触的数据库系统，大部分都是行存储系统。大学的时候学数据库，老师让我们将数据库想象成一张表格，每条数据记录就是一行数据，每行数据包含若干列。所以我们对大部分数据存储的思维也就是一个复杂一点的表格管理系统。我们在一行一行地写入数据，然后按查询条件查询过滤出我们想要的行记录…

码哥字节
5年前
25k
39
8

Hive入门篇——Hive安装配置，数据存储，表操作

Hive 是 Hadoop 家族中一款数据仓库产品，Hive 最大的特点就是提供了类 SQL 的语法，封装了底层的 MapReduce 过程，让有 SQL 基础的业务人员，也可以直接利用 Hadoop 进行大数据的操作。就是这一个点，解决了原数据分析人员对于大数据分析的瓶颈。 …

变速风声
5年前
2.1k
3
评论

大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？

1. hadoop 它是一个分布式计算+分布式文件系统，前者其实就是 MapReduce，后者是 HDFS 。后者可以独立运行，前者可以选择性使用，也可以不使用 2. hive 通俗的说是一个数据仓库，仓库中的数据是被hdfs管理的数据文件，它支持类似sql语句的功能，你可以通…

RunFromHere
7年前
12k
36
1

Kafka架构及基本原理简析

Kafka简介 Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统，最早是由Linkedin公司开发，最终开源到Apache软件基金会的项目。Kafka是一个分布式的，支持分区的，

编程学习网
4年前
4.9k
5
1

大数据开发快速入门Flume（第十三篇）

一、什么是Flume Flume是一个高可用、高可靠，分布式的海量日志采集、聚合和传输的系统，能够有效的收集、聚合、移动大量的日志数据。通俗来讲：Flume是一个很靠谱、很方便、很强大的日志采集工具。

落叶飞逝的恋
3年前
829
1
评论