首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
怀瑾握瑜的嘉与嘉
掘友等级
大数据萌新,期待与您共同成长
获得徽章 9
动态
文章
专栏
沸点
收藏集
关注
作品
赞
658
文章 649
沸点 9
赞
658
返回
|
搜索文章
最新
热门
想通讯?谈钱多俗,谈ProtoBuf
protocol buffers 是一种语言无关、平台无关、可扩展的序列化结构数据的方法,它可用于(数据)通信协议、数据存储等。
spark调优(六):大家好才是真的好——广播变量
广播变量允许程序员在每台计算机上缓存只读变量,而不是将其副本与任务一起发送。例如,它们可以为每个节点提供一个大数据集的副本,而不用给每个 task 来传送一个副本。
用什么承受全部的数据-RDD、DataFrame还是Dataset
在后期的Spark版本中,DataSet有可能会逐步取代RDD和DataFrame成为唯一的API接口。
数据仓库分层——DWD DWS ADS傻傻分不清楚
数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。
离线批处理的咽喉——Flume基础配置简析
Flume的机制决定Flume更多是用离线数据落盘的场景中,作为数据落地的第一步,说是咽喉毫不为过。而Flume的配置,也决定你收集到的数据的格式、类型、大小等等。
Snappy你脱了马甲我照样认识你
Hive中对中间数据或最终数据都会做压缩处理,Snappy因为解压缩速度很快,并且可以进行分隔,是大数据存储中最常用的压缩方式
Hive说我变了,Spark说不你没变
hive说:我已经变了,你看人家presto就懂我,可以直接读我的信息;spark说:你不说,我怎么知道啊,我只读我的缓存里的,既然没有,就只能从头开始调查了
听我抚琴一曲可好---新年好呀~新年好呀
一帆风顺年年好,万事如意步步高,祝大家新年万事如意。下面请您欣赏,童年第一首环绕立体式接红包BGM-新年好~
2021年总结-一念通天
「时光不负,创作不停,本文正在参加2021年终总结征文大赛」 前尘 今年的3月以前,我是一名JAVA后台开发人员,做了10来年的开发,不懂架构,不懂设计模式,没看过源码,其实感觉挺失败的。对未来是仿徨
spark调优(五):提交任务优化
「这是我参与11月更文挑战的第15天,活动详情查看:2021最后一次更文挑战」 1. 起因 任务运行如何提高并发,如何有效利用资源,如何排列任务,这是spark调优的最后一道门槛,也是话费时间最长的地
下一页
个人成就
文章被点赞
467
文章被阅读
20,944
掘力值
1,103
关注了
32
关注者
28
收藏集
0
关注标签
8
加入于
2021-11-16