首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
烤鸭肠
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
9
文章 9
沸点 0
赞
9
返回
|
搜索文章
赞
文章( 9 )
沸点( 0 )
iceberg介绍
Apache Iceberg 是一种用于大型分析数据集的开放表格式。使用高性能表格式将表添加到计算引擎中,包括 Spark、Trino、PrestoDB、Flink、Hive 和 Impala。
布隆过滤器理论
问题的引入:如果我们想去判断一个元素是否存在某个集合里面,会怎么做呢? 一般的方案->先把所有的元素保存起来,然后通过循环的方式来比较确定。但是如果有几千万,甚至上亿的数据的时候,虽然可以通过不同的数
hive on spark使用thriftserver代替hiveserver2实现sql引擎变更
实现DataGrip,DBeaver等工具连接hive,编写sql语句,同时不用hive默认的mr来执行sql,而是用spark。 这种方法可以不必重新编译hive来适配spark3.x新版本
python判断某年每个月第N个星期N是什么日期,通过datatime,timedelta实现
参数var_year = 2022 是年份 参数var_weeks = 4 是选第N(个)周 参数var_weekday = 5 星期 最后输出每个月对应的日期。
python实现AES加密解密
这是js aes加密解密的python实现,一些网站加密可能用到。从JS逆向用python再现加解密过程。
Dolphin Scheduler
概念 简介 Apache DolphinScheduler是一个分布式易拓展的可视化DAG工作流任务调度开源系统。解决数据研发ETL错综复杂的依赖关系,不能直观监控任务健康状态等问题。 Dolphin
DataX
概述 主要用于采集处理业务数据。 是阿里云的DataWorks数据集成的开源版本,在阿里巴巴集团内广泛使用的离线数据同步工具。 解决了数据库之间相互传递数据的问题把网状模型改成了星型模型。当需要插入一
Flume
概述 分布式的海量日志采集,聚合和传输的系统。 优点:可以高速采集数据,采集的数据能够以想要的文件格式及压缩方式存储在HDFS上。事务功能保证了数据在采集的过程中数据不丢失,部分Source保证了Fl
数据仓库
数仓的理论知识,包括数据处理、数据建模、数据清洗ETL、数仓的分层及常用的基本概念。数据建模有ER建模、维度建模。维度建模有事实表、维度表、度量值。以及一些设计原则和设计方法。数仓分层:ODS、DW、
个人成就
文章被点赞
12
文章被阅读
4,774
掘力值
119
关注了
2
关注者
2
收藏集
0
关注标签
0
加入于
2023-11-16