大数据 - John133766074的收藏集 - 掘金

大数据

John133766074 创作等级LV.2

更多收藏集

8篇文章 · 0订阅

OpenMLDB: 一文了解窗口倾斜优化技术细节

简介 OpenMLDB是针对AI场景优化的开源数据库项目，实现了数据与计算一致性的离线MPP场景和在线OLTP场景计算引擎。MPP引擎可基于Spark实现，并通过拓展Spark源码实现数倍性能提升。

第四范式开发者社区
4年前
607
点赞
评论

OpenMLDB: 一文了解窗口倾斜优化技术细节

Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个

五分钟学大数据
4年前
2.9k
7
评论

Hive企业级性能优化（好文建议收藏）

Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hi

五分钟学大数据
4年前
2.7k
12
评论

阿里云搭建Hadoop集群

1前言在讲述Hadoop集群搭建之前，首先要了解Hadoop和集群两个名词，Hadoop是由Apache基金会开发的分布式系统基础架构，简单理解就是大数据技术应用的基础。集群可以理解为多台装有hado

大数据孔
5年前
2.1k
1
评论

PySpark初级教程——第一步大数据分析(附代码实现)

概述数据正以前所未有的速度与日俱增如何存储、处理和使用这些数据来进行机器学习?spark正可以应对这些问题了解Spark是什么，它是如何工作的，以及涉及的不同组件是什么简介我们正在以前所未有的速度生成

Pans70645
6年前
3.0k
点赞
评论

从 Spark Streaming 到 Apache Flink：bilibili 实时平台的架构与实践

各个业务部门进行业务研发时都有实时计算的需求。早期，在没有平台体系做支撑时开发工作难度较大，由于不同业务部门的语言种类和体系不同，导致管理和维护非常困难。其次，bilibili 有很多关于用户增长、渠道投放的分析等 BI 分析任务。而且还需要对实时数仓的实时数据进行清洗。此外，…

Flink_China
6年前
2.3k
2
评论

百万TPS高吞吐、秒级低延迟，阿里搜索离线平台如何实现？

在阿里搜索工程体系中我们把搜索引擎、在线算分等毫秒级响应用户请求的服务称之为“在线”服务；与之相对应的，将各种来源数据转换处理后送入搜索引擎等“在线”服务的系统统称为“离线”系统。搜索离线平台作为搜索引擎的数据提供方，是集团各业务接入搜索的必经之路，也是整个搜索链路上极为重要的…

Flink_China
6年前
1.6k
1
评论