大数据流动

大数据工程师 | 小米科技

公号大数据流动专注于实时计算，数据治理，数据可视化相关技术与应用。

赞

3

|

搜索文章

超越Storm，SparkStreaming——Flink如何实现有状态的计算

流式计算分为无状态和有状态两种情况。无状态计算观察每个独立的事件，Storm就是无状态的计算框架，每一条消息来了以后和前后都没有关系，一条是一条。比如我们接收电力系统传感器的数据，当电压超过240v就

6年前
2.2k
点赞
评论

可以穿梭时空的实时计算框架——Flink对时间的处理

Flink对于流处理架构的意义十分重要，Kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠Flink来完成。在Streaming-大数据的未来一文中我们知道，对于流式处理最重要的

6年前
934
点赞
评论

替代Flume——Kafka Connect简介

我们知道过去对于Kafka的定义是分布式，分区化的，带备份机制的日志提交服务。也就是一个分布式的消息队列，这也是他最常见的用法。但是Kafka不止于此，打开最新的官网。我们看到Kafka最新的定义是：

6年前
1.3k
点赞
评论

数据架构的未来——浅谈流处理架构

数据架构设计领域正在发生一场变革，其影响的不仅是实时处理业务，这场变革可能将基于流的处理视为整个架构设计的核心，而不是将流处理只是作为某一个实时计算的项目使用。本文将对比传统数据架构与流处理架构的区

6年前
1.4k
点赞
评论

Flink快速入门--安装与示例运行

flink是一款开源的大数据流式处理框架，他可以同时批处理和流处理，具有容错性、高吞吐、低延迟等优势，本文简述flink在windows和linux中安装步骤，和示例程序的运行。首先要想运行Flink

6年前
7.5k
2
评论

Kafka到底有几个Offset？——Kafka核心之偏移量机制

Kafka是由LinkIn开源的实时数据处理框架，目前已经更新到2.3版本。不同于一般的消息中间件，Kafka通过数据持久化和磁盘读写获得了极高的吞吐量，并可以不依赖Storm，SparkStrea

6年前
3.9k
1
1

Kafka的消息会丢失和重复吗？——如何实现Kafka精确传递一次语义

有很多公司因为业务要求必须保证消息不丢失、不重复的到达，比如无人机实时监控系统，当无人机闯入机场区域，我们必须立刻报警，不允许消息丢失。而无人机离开禁飞区域后我们需要将及时报警解除。如果消息重复了呢，我们是否需要复杂的逻辑来自己处理消息重复的情况呢，这种情况恐怕相当复杂而难…

6年前
3.9k
4
评论

Kafka监控工具汇总

对于大数据集群来说，监控功能是非常必要的，通过日志判断故障低效，我们需要完整的指标来帮我们管理Kafka集群。本文讨论Kafka的监控以及一些常用的第三方监控工具。 kafka使用Yammer Metrics进行监控，Yammer Metrics是一个java的监控库。 Kaf…

6年前
13k
13
评论

实时计算大数据处理的基石-Google Dataflow

此文选自Google大神TylerAkidau的另一篇文章：Streaming102:Theworldbeyondbatch欢迎回来！如果您错过了我以前的帖子，Streaming-大数据的未来，强

6年前
664
点赞
评论

Streaming-大数据的未来

分享一篇关于实时流式计算的经典文章，这篇文章名为Streaming101:Theworldbeyondbatch那么流计算如何超越批处理呢？从这几个方面说明：实时流计算系统，数据处理模式，还有大数据的

6年前
1.3k
3
评论

个人成就

文章被点赞 161

文章被阅读 201,975

掘力值 3,751

加入于

2019-08-14