大数据 - Mr纯洁的收藏集 - 掘金

大数据

更多收藏集

18篇文章 · 0订阅

深入 Elastic Search： ES 性能优化总结

ssd 好处不用说了，但是可能不是我们能决定的，这个知道就行。 ElasticSearch 是一个非常非常吃内存的搜索引擎，搜索过程中的 sort（排序）、agg（聚合），分词过程中的 fieldadd、倒排索引等等，一直在消耗着内存，一定要有足够的 JVM HEAP 在维持这…

nonacosa
5年前
11k
35
1

深入 Elastic Search： ES 性能优化总结

第六篇|Flink Table API & SQL编程指南之动态表(2)

在Flink Table API & SQL编程指南(1)一文中介绍了Flink Table API &SQL的一些基本的概念和通用的API，在本文将会更加深入地讲解Flink Table API &SQL的流处理的基本概念。Flink Table…

大数据技术与数仓
5年前
1.4k
1
评论

第五篇|Flink Table API & SQL编程指南(1)

Apache Flink提供了两种顶层的关系型API，分别为Table API和SQL，Flink通过Table API&SQL实现了批流统一。其中Table API是用于Scala和Java的语言集成查询API，它允许以非常直观的方式组合关系运算符（例如select…

大数据技术与数仓
5年前
1.8k
2
评论

Flink流处理API代码详解，含多种Source、Transform、Sink案例，Flink学习入门（二）

又是一周没更文了，上周末回运城看牙去了，一直都在路上，太累了。说回正题，关于flink的入门在上一篇已经讲过了。今天主要说一下关于「流处理的API」，这一篇所有的代码都是scala。那么我们还得回到上次的WordCount代码，Flink程序看起来像转换数据集合的常规程序。…

后来X大数据
5年前
1.2k
点赞
评论

「从零单排HBase 12」HBase二级索引Phoenix使用与最佳实践

Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs对HBase数据进行增删改查，构建二级索引。当然，开源产品嘛，自然需要注意“避坑”啦，阿丸会把使用方式和最佳实践都告诉你。 Phoenix完全使用Java编写，将SQL查询转换为一个或多个HBa…

阿丸笔记
5年前
2.4k
3
评论

为什么说 Flink + AI 值得期待？

去年 11 月的 Flink Forward Asia 2019（以下简称 FFA）上 Flink 社区提出了未来发展的几个主要方向，其中之一就是拥抱 AI [1]。实际上，近年来 AI 持续火热，各种计算框架、模型和算法层出不穷，从某种角度上来说，这个赛道已经有些拥挤了。在…

Flink_China
6年前
868
2
评论

字节跳动基于Flink的MQ-Hive实时数据集成

在数据中台建设过程中，一个典型的数据集成场景是将 MQ(Message Queue，例如 Kafka、RocketMQ 等)的数据导入到 Hive 中，以供下游数仓建设以及指标统计。由于 MQ-Hive 是数仓建设第一层，因此对数据的准确性以及实时性要求比较高。本文主要围绕 …

字节跳动技术团队
5年前
5.0k
29
评论

字节跳动基于Flink的MQ-Hive实时数据集成

MacOS:快速配置单体k8s开发环境

既然快速,那就尽可能减少编译这些行为了. 我拿我们的开发环境来体验了下.. 服务层这些就不展示了.涉及到敏感信息.. 这一套配置下来,本地就可以玩单体的k8s环境了. 具体可以参考这里 istio 安装.

CRPER
5年前
4.6k
8
评论

MacOS:快速配置单体k8s开发环境

Spark的Shuffle是怎么回事

Shuffle的中文含义是混洗，官方定义是：一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件，在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shu…

西兰花是真的菜
5年前
3.1k
3
评论

从 Spark Streaming 到 Apache Flink：bilibili 实时平台的架构与实践

各个业务部门进行业务研发时都有实时计算的需求。早期，在没有平台体系做支撑时开发工作难度较大，由于不同业务部门的语言种类和体系不同，导致管理和维护非常困难。其次，bilibili 有很多关于用户增长、渠道投放的分析等 BI 分析任务。而且还需要对实时数仓的实时数据进行清洗。此外，…

Flink_China
6年前
2.3k
2
评论