大数据 - 罗小元的收藏集 - 掘金

大数据

更多收藏集

10篇文章 · 0订阅

Hadoop YARN：调度性能优化实践

YARN作为Hadoop的资源管理系统，负责Hadoop集群上计算资源的管理和作业调度。美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。离线业务主要运行的是Hive on MapReduce， Spark SQL为主…

美团技术团队
6年前
1.8k
18
1

Hadoop YARN：调度性能优化实践

TiDB EcoSystem Tools 原理解读系列（二）TiDB-Lightning Toolset 介绍

TiDB-Lightning Toolset 是一套快速全量导入 SQL dump 文件到 TiDB 集群的工具集，自 2.1.0 版本起随 TiDB 发布，速度可达到传统执行 SQL 导入方式的至少 3 倍、大约每小时 100 GB，适合在上线前用作迁移现有的大型数据库到全新…

PingCAP
7年前
597
2
评论

美团DB数据同步到数据仓库的架构与实践

在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(Operational Data Store)数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后…

美团技术团队
7年前
4.4k
50
1

Spark的运行原理

spark的运行原理在大数据开发岗面试过程中是经常被问到的一个问题，我第一次被问到这个问题的时候有点摸不着头脑，这么大的一个问题我究竟应该怎样回答呢？是去描述一下spark的架构组成还是说一下底层的调用细节？后来查找了一些资料，看了一些书之后对这个问题有了一些理解，其实提这个问…

liujiayi771
7年前
3.4k
17
评论

一文读懂Apache Flink技术

Flink是一款分布式的计算引擎，它可以用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果；也可以用来做一些基于事件的应用，比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否…

Flink_China
7年前
14k
42
4

不可不说的Java“锁”事

Java提供了种类丰富的锁，每种锁因其特性的不同，在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码（本文中的源码来自JDK 8）、使用场景进行举例，为读者介绍主流锁的知识点，以及不同的锁的适用场景。 Java中往往是按照是否含有某一特性来定义锁，我们通过特性将锁进行分…

美团技术团队
7年前
5.8k
141
8

新一代数据库TiDB在美团的实践

1. 背景和现状近几年，基于MySQL构建的传统关系型数据库服务，已经很难支撑美团业务的爆发式增长，这就促使我们去探索更合理的数据存储方案和实践新的运维方式。而随着分布式数据库大放异彩，美团DBA团队联合基础架构存储团队，于 2018年初启动了分布式数据库项目。在立项之初，…

美团技术团队
7年前
4.4k
30
1

深度剖析 Spark 分布式执行原理

Spark 是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于 Spark 源码分析的文章有很多，但是介绍 Spark 如何处理代码分布式执行问题的资料少之又少，这也是我撰写文本的目的。

StanZhai
9年前
1.6k
21
评论

深度剖析 Spark 分布式执行原理

Kudu+Impala介绍 | 微店数据科学团队博客

Kudu+Impala介绍 | 微店数据科学团队博客

赵安家
8年前
17k
26
2