首页
沸点
课程
AI Coding
数据标注
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
oceanuslion
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
数据可视化分析平台开源方案集锦
B/S 架构的数据可视化分析平台开源方案不完全集锦,供各位参考。 排名不分先后。欢迎补充。 Elasticsearch 专用的数据分析检索仪表盘。ELK Stack 中的 K。 日志系统常见的可视化开源解决方案。 使用 Nodejs+AnglarJs+React 开发,元数据存…
支撑百亿级应用的 NewSQL——TiDB 在同程旅游的应用
初次接触 TiDB,是通过同程网首席架构师王晓波先生的分享,当时同程网正在使开发和数据库全面往开源方向转型,由于业务需要,很多在线业务数据量和访问量都非常的大,而 MySQL 无法满足大数据量下的复杂查询需求,为了使数据库分片对开发透明,同程自研了 DBrouter 。
Spark streaming消费Kafka的正确姿势
在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…
Spark Streaming 之 Kafka 偏移量管理
本文主要介绍 Spark Streaming 应用开发中消费 Kafka 消息的相关内容,文章着重突出了开发环境的配置以及手动管理 Kafka 偏移量的实现。 由于 spark、spark-streaming、zookeeper 等均为大数据集群中必备的组件,因此与之相关的依赖…
Spark Streaming学习——DStream
SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:ma…
流计算框架 Flink 与 Storm 的性能对比
Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档…
如何设计实时数据平台(设计篇)
导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。 在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解…
如何用Python做舆情时间序列可视化?
如何批量处理评论信息情感分析,并且在时间轴上可视化呈现?舆情分析并不难,让我们用Python来实现它吧。 你是一家连锁火锅店的区域经理,很注重顾客对餐厅的评价。从前,你苦恼的是顾客不爱写评价。最近因为餐厅火了,分店越来越多,写评论的顾客也多了起来,于是你新的痛苦来了——评论太多…
Sqoop:SQL 与 NoSQL 间的数据桥梁
SQL 处理二维表格数据,是一种最朴素的工具,NoSQL 是 Not Only SQL,即不仅仅是 SQL。从 MySQL 导入数据到 HDFS 文件系统中,最简单的一种方式就是使用 Sqoop,然后将 HDFS 中的数据和 Hive 建立映射。通过 Sqoop 作为数据桥梁,将传统的数据也存入到 NoSQL 中来了,有了数据,猴戏才刚刚开始。