大数据 - oceanuslion的收藏集 - 掘金

大数据

更多收藏集

11篇文章 · 0订阅

数据可视化分析平台开源方案集锦

B/S 架构的数据可视化分析平台开源方案不完全集锦，供各位参考。排名不分先后。欢迎补充。 Elasticsearch 专用的数据分析检索仪表盘。ELK Stack 中的 K。日志系统常见的可视化开源解决方案。使用 Nodejs+AnglarJs+React 开发,元数据存…

磊仔
7年前
20k
97
10

支撑百亿级应用的 NewSQL——TiDB 在同程旅游的应用

初次接触 TiDB，是通过同程网首席架构师王晓波先生的分享，当时同程网正在使开发和数据库全面往开源方向转型，由于业务需要，很多在线业务数据量和访问量都非常的大，而 MySQL 无法满足大数据量下的复杂查询需求，为了使数据库分片对开发透明，同程自研了 DBrouter 。

折叠椅
7年前
1.4k
35
评论

Spark streaming消费Kafka的正确姿势

在游戏项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…

王知无
6年前
9.7k
19
1

Spark Streaming 之 Kafka 偏移量管理

本文主要介绍 Spark Streaming 应用开发中消费 Kafka 消息的相关内容，文章着重突出了开发环境的配置以及手动管理 Kafka 偏移量的实现。由于 spark、spark-streaming、zookeeper 等均为大数据集群中必备的组件，因此与之相关的依赖…

rochy_he
7年前
4.2k
10
10

Spark Streaming学习——DStream

SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：ma…

Hiway
6年前
2.6k
3
评论

流计算框架 Flink 与 Storm 的性能对比

Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm（以下简称“Storm”）在美团点评实时计算业务中已有较为成熟的运用（可参考 Storm 的可靠性保证测试），有管理平台、常用 API 和相应的文档…

隔壁王同学
8年前
1.4k
32
评论

如何设计实时数据平台（设计篇）

导读：本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论，即“实时数据平台”。在上篇设计篇中，我们首先从两个维度介绍实时数据平台：从现代数仓架构角度看待实时数据平台，从典型数据处理角度看待实时数据处理；接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解…

宜信技术学院
6年前
2.5k
14
评论

如何用Python做舆情时间序列可视化？

如何批量处理评论信息情感分析，并且在时间轴上可视化呈现？舆情分析并不难，让我们用Python来实现它吧。你是一家连锁火锅店的区域经理，很注重顾客对餐厅的评价。从前，你苦恼的是顾客不爱写评价。最近因为餐厅火了，分店越来越多，写评论的顾客也多了起来，于是你新的痛苦来了——评论太多…

王树义
7年前
2.6k
39
评论

Sqoop：SQL 与 NoSQL 间的数据桥梁

SQL 处理二维表格数据，是一种最朴素的工具，NoSQL 是 Not Only SQL，即不仅仅是 SQL。从 MySQL 导入数据到 HDFS 文件系统中，最简单的一种方式就是使用 Sqoop，然后将 HDFS 中的数据和 Hive 建立映射。通过 Sqoop 作为数据桥梁，将传统的数据也存入到 NoSQL 中来了，有了数据，猴戏才刚刚开始。

SDKcn
9年前
1.6k
43
评论

Sqoop：SQL 与 NoSQL 间的数据桥梁