BigData - Jastang的收藏集 - 掘金

BigData

更多收藏集

20篇文章 · 0订阅

腾讯云Elasticsearch集群规划及性能优化实践

一、引言随着腾讯云Elasticsearch云产品功能越来越丰富，ES用户越来越多，云上的集群规模也越来越大。我们在日常运维工作中也经常会遇到一些由于前期集群规划不到位，导致后期业务增长集群规模大了

腾讯云开发者
5年前
2.0k
5
评论

kafka数据迁移实践

本文重点介绍kafka的两类常见数据迁移方式：1、broker内部不同数据盘之间的分区数据迁移；2、不同broker之间的分区数据迁移。最近，腾讯云的一个重要客户发现kafka broker内部的topic分区数据存储分布不均匀，导致部分磁盘100%耗尽，而部分磁盘只有40%…

腾讯云开发者
8年前
4.2k
27
评论

我们为什么放弃 MongoDB 和 MySQL，选择 TiDB

写在前面的话技术选型是由技术方向和业务场景 trade-off 决定的，脱离业务场景来说技术选型是没有任何意义的，所以本文只是阐述了伴鱼技术团队数据库选型的过程，这并不是 MySQL、MongoDB

伴鱼技术团队
5年前
28k
278
37

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

10月26日，字节跳动技术沙龙 | 大数据架构专场在上海字节跳动总部圆满结束。我们邀请到字节跳动数据仓库架构负责人-郭俊，Kyligence 大数据研发工程师-陶加涛，字节跳动存储工程师-徐明敏，阿里云高级技术专家-白宸和大家进行分享交流。以下是字节跳动数据仓库架构负责人-…

字节跳动技术团队
6年前
11k
22
5

字节跳动在Spark SQL上的核心优化实践 | 字节跳动技术沙龙

字节跳动基于Flink的MQ-Hive实时数据集成

在数据中台建设过程中，一个典型的数据集成场景是将 MQ(Message Queue，例如 Kafka、RocketMQ 等)的数据导入到 Hive 中，以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层，因此对数据的准确性以及实时性要求比较高。本文主要围绕 …

字节跳动技术团队
5年前
5.1k
29
评论

字节跳动基于Flink的MQ-Hive实时数据集成

Yarn是什么,SparkSQL和Hive on Spark的比较

1. 应对小规模数据流程OK,如果是大数据场景,同时处理大量Data Node,就Job Tracker由于无法均衡分配资源,非常容易成为系统瓶颈 2. 只能接收MapReduce的方式,技术栈只能是java Application Master job的任务调度 Applic…

PandaIP
6年前
2.8k
点赞
评论

美图离线ETL实践

美图收集的日志需要通过 ETL 程序清洗、规整，并持久化地落地于 HDFS / Hive，便于后续的统一分析处理。 ETL 即 Extract-Transform-Load，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的…

美图数据技术团队
7年前
4.0k
39
1

分布式日志收集系统 —— Flume

Apache Flume 是一个分布式，高可用的数据收集系统。它可以从不同的数据源收集数据，经过聚合后发送到存储系统中，通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本，NG 在 OG 的基础上进行了完全的重构，是目前使用最为广泛的版本。下面…

heibaiying
6年前
4.5k
2
评论

Apache 流框架 Flink，Spark Streaming，Storm对比分析（1）

此文已由作者岳猛授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。 Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提供high level的API。Flink也提供API来像Spark一样进行批处理，但两…

网易数帆
7年前
1.0k
4
评论

Apache 流框架 Flink，Spark Streaming，Storm对比分析（2）

此文已由作者岳猛授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。基于是spark core的spark streaming架构。 Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark …

网易数帆
7年前
1.3k
6
评论