首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
IT果果日记
更多收藏集
微信扫码分享
微信
新浪微博
QQ
19篇文章 · 0订阅
阿里云离线同步工具DataX源码略读
最近在做一些数据迁移相关工作,并最终采用了DataX,楼主也本着知其然,也要知其所以然的精神粗略的看一看Datax的源码。
图解 DataX 核心设计原理
DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。 前段时间我在 K8s 相关文章中有提到过数据同步的项目,该项目就是…
Alink漫谈(一) : 从KMeans算法实现不同看Alink设计思想
Alink漫谈(一):从KMeans算法实现不同看Alink设计思想0x00摘要0x01Flink是什么0x02Alink是什么0x03Alink设计思路1.白手起家2.替代品如何造成威胁3.用户角度
8种ETL算法汇总大全!看完你就全明白了
以上共计累积了8种ETL算法,其中主要分成4大类,增量累加、拉链算法是更符合数据仓库历史数据追踪的算法,但现实中基于业务及性能考虑,往往存在全删全插、增量累全算法的数据表应用。 主要应用在维表、参数表、主档表加载上,即适合源表是全量数据表,该数据表业务逻辑只需保存当前最新全量数…
数据仓库学习笔记(二)
这一系列主要是美团18年一年的大数据相关的文章分享,倒序。 从中可以看到美团的实时数据系统架构从Storm到Flink的转变和选择。 数据指标越来越多,“烟囱式”的开发导致代码耦合问题严重。 需求越来越多,有的需要明细数据,有的需要 OLAP 分析。单一的开发模式难以应付多种需…
数据仓库学习笔记(一)
正常流向:ODS>DWD->DWT->DWA->APP,当出现ODS >DWD->DWA->APP这种关系时,说明主题域未覆盖全。应将DWD数据落到DWT中,对于使用频度非常低的表允许DWD->DWA。 尽量避免出现DWA宽表中使用DWD又使用(该DWD所归属主题域)DWT的表…
Hive技术初探
Innodb,Myisam,Ndb做数据存储引擎。
基于Hadoop的数据仓库
不了解的数据仓库基本概念的,可以参考之前《了解一下数据仓库》这篇文章。
了解一下数据仓库
数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享 数据仓库是面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管…
HBase 初探:架构 + 原理 + 对比 + 实践
因为工作需要使用 HBase,因此调研了 HBase 相关的内容。本文的写作目的不仅仅是对前期工作的总结,也希望能帮助到工作繁忙但又想了解 HBase 的同学。在本文写作过程中,将穿插 MySQL 相关内容,希望能帮助理解 HBase 。 本文主要讨论以下几个问题,所述内容仅为…