首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
薄荷微凉
更多收藏集
微信扫码分享
微信
新浪微博
QQ
26篇文章 · 0订阅
深度解析字节跳动开源数据集成引擎 BitSail
字节跳动数据集成引擎开源啦!BitSail 是字节跳动开源数据集成引擎,支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下全域数据集成解决方案。
ClickHouse 冷热分离存储在得物的实践
得物上一代日志平台的存储主要依赖于 ES。随着公司业务的高速发展,日志场景逐步产生了一些新需求,主要表现在:应用数量逐步增多,研发需要打印更多的日志定位业务问题,安全合规需要保留更长时间的日志。
关于数仓建设及数据治理的超全概括
在谈数仓之前,先来看下面几个问题: 数仓为什么要分层? 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将
OPPO大数据离线任务调度系统OFLOW
离线调度系统在整个大数据体系中发挥了一个指挥中心的作用。OPPO的大数据离线调度系统OFLOW系统是基于热门的开源的apache airflow进行定制开发的,进行了很多的改造和优化以适应自身业务需求
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为
Hadoop集群从180到1500,携程大数据实践之路
内容来源:2018 年 09 月 08 日,携程大数据平台技术总监张翼在“2018开源数据库论坛暨首届MariaDB中国用户者大会”进行《大数据平台在携程的实践》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。 获取嘉宾演讲视频及PPT,请点击:http:…
阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么,和自建Hadoop平台有什么区别。 Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,…
带你入坑大数据(四)--- 资源调度框架Yarn
在MapReduce的时候也许很多人会有这种疑问:写了MR后,map task和reduce task是如何在多节点上并行执行的,而且又是怎么决定哪个任务执行再哪个节点上的?其实这些问题都是和这个Yarn有关。因为Yarn这个框架其实不仅仅是支持MR,还可以运行各种各样的程序。…
极速开发扩充 Apache DolphinScheduler Task 类型 | 实用教程
目前在大数据生态中,调度系统是不可或缺的一个重要组件。Apache DolphinScheduler 作为一个顶级的Apache 项目,其稳定性和易用性也可以说是名列前茅的。
hadoop集群搭建
下面将要在三台linux虚拟机上搭建hadoop集群。 下面开始进行实验。 配置核心4个文件 ,hadoop-env.sh配置JAVA_HOME,core-site.xml配置主节点,mapred-site.xm配置MR运行方式, yarn-site.xml配置yarn的主节点。