首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
Liao不想说话65182
更多收藏集
微信扫码分享
微信
新浪微博
QQ
18篇文章 · 0订阅
flink教程-详解flink 1.11中的新部署模式-Application模式
目前对于flink来说,生产环境一般有两个部署模式,一个是 session模式,一个是per job模式。 这种模式会预先在yarn或者或者k8s上启动一个flink集群,然后将任务提交到这个集群上,这种模式,集群中的任务使用相同的资源,如果某一个任务出现了问题导致整个集群挂掉…
Apache Doris在美团外卖数仓中的应用实践
美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Do…
从0开始学大数据-数据仓库建模
数据模型是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。有了适合业务和基础数据存储环境的模型,那么大数据就能获得以下好处: 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 I/O 吞吐。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能…
Flink异步之矛盾-锋利的Async I/O
维表JOIN-绕不过去的业务场景在Flink流处理过程中,经常需要和外部系统进行交互,用维度表补全事实表中的字段。例如:在电商场景中,需要一个商品的skuid去关联商品的一些属性,例如商品所属行业、商
Flink 面试通关手册
概述2019年是大数据实时计算领域最不平凡的一年,2019年1月阿里巴巴Blink(内部的Flink分支版本)开源,大数据领域一夜间从Spark独步天下走向了两强争霸的时代。Flink因为其天然的流式
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
从0开始学大数据-Hive基础篇
Hive起源于Facebook,是基于 Hadoop HDFS 分布式文件系统的分布式 数据仓库 架构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言(HiveQL)。允许用户进…
如何成为用户画像方面的专家
用户画像是一个老生常谈的话题了,几乎所有的互联网公司,都需要用到用户画像,无论是 ToC 的业务,还是 ToB 的业务。但真正理解什么是用户画像,且能够产出精准、有效的用户画像,就不是那么容易的一件事情了。 所以,我想通过本文和大家分享一下,我关于用户画像方向的思考,及探讨如何…
Sqoop:SQL 与 NoSQL 间的数据桥梁
SQL 处理二维表格数据,是一种最朴素的工具,NoSQL 是 Not Only SQL,即不仅仅是 SQL。从 MySQL 导入数据到 HDFS 文件系统中,最简单的一种方式就是使用 Sqoop,然后将 HDFS 中的数据和 Hive 建立映射。通过 Sqoop 作为数据桥梁,将传统的数据也存入到 NoSQL 中来了,有了数据,猴戏才刚刚开始。
Cris 带你快速入门 Flink
在开源世界里,Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发,后来才被Apache基金会接纳。Storm提供了低延迟的流处理,但是它为实时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需的…