大数据 - Liao不想说话65182的收藏集 - 掘金

大数据

Liao不想说话65182

更多收藏集

18篇文章 · 0订阅

flink教程-详解flink 1.11中的新部署模式-Application模式

目前对于flink来说，生产环境一般有两个部署模式，一个是 session模式，一个是per job模式。这种模式会预先在yarn或者或者k8s上启动一个flink集群，然后将任务提交到这个集群上，这种模式，集群中的任务使用相同的资源，如果某一个任务出现了问题导致整个集群挂掉…

大数据技术与应用实战
5年前
4.8k
5
评论

Apache Doris在美团外卖数仓中的应用实践

美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析，由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题，他们通过引入Apache Doris引擎优化生产方案，实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下，基于Kylin的MOLAP模式与基于Do…

美团技术团队
6年前
4.6k
43
4

Apache Doris在美团外卖数仓中的应用实践

从0开始学大数据-数据仓库建模

数据模型是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。有了适合业务和基础数据存储环境的模型，那么大数据就能获得以下好处：性能：良好的数据模型能帮助我们快速查询所需要的数据，减少数据的 I/O 吞吐。成本：良好的数据模型能极大地减少不必要的数据冗余，也能…

dxer0730
6年前
3.4k
18
评论

Flink异步之矛盾-锋利的Async I/O

维表JOIN-绕不过去的业务场景在Flink流处理过程中，经常需要和外部系统进行交互，用维度表补全事实表中的字段。例如：在电商场景中，需要一个商品的skuid去关联商品的一些属性，例如商品所属行业、商

王知无
6年前
4.6k
8
评论

Flink 面试通关手册

概述2019年是大数据实时计算领域最不平凡的一年，2019年1月阿里巴巴Blink（内部的Flink分支版本）开源，大数据领域一夜间从Spark独步天下走向了两强争霸的时代。Flink因为其天然的流式

王知无
6年前
7.2k
35
1

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

从0开始学大数据-Hive基础篇

Hive起源于Facebook，是基于 Hadoop HDFS 分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能：数据ETL（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言（HiveQL）。允许用户进…

dxer0730
6年前
2.5k
14
评论

如何成为用户画像方面的专家

用户画像是一个老生常谈的话题了，几乎所有的互联网公司，都需要用到用户画像，无论是 ToC 的业务，还是 ToB 的业务。但真正理解什么是用户画像，且能够产出精准、有效的用户画像，就不是那么容易的一件事情了。所以，我想通过本文和大家分享一下，我关于用户画像方向的思考，及探讨如何…

周兴博
6年前
5.4k
39
4

Sqoop：SQL 与 NoSQL 间的数据桥梁

SQL 处理二维表格数据，是一种最朴素的工具，NoSQL 是 Not Only SQL，即不仅仅是 SQL。从 MySQL 导入数据到 HDFS 文件系统中，最简单的一种方式就是使用 Sqoop，然后将 HDFS 中的数据和 Hive 建立映射。通过 Sqoop 作为数据桥梁，将传统的数据也存入到 NoSQL 中来了，有了数据，猴戏才刚刚开始。

SDKcn
10年前
1.7k
43
评论

Sqoop：SQL 与 NoSQL 间的数据桥梁

Cris 带你快速入门 Flink

在开源世界里，Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发，后来才被Apache基金会接纳。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的…

Cris就是我
7年前
18k
95
3

Cris 带你快速入门 Flink