首页
首页
BOT
沸点
课程
直播
活动
AI刷题
NEW
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
云祁
掘友等级
公众号:云祁QI
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
100
文章 100
沸点 0
赞
100
返回
|
搜索文章
云祁
公众号:云祁QI
·
2年前
关注
Spark(十三)Spark Core 调优之Shuffle调优
一、概述二、shuffle的定义三、ShuffleManager发展概述四、HashShuffleManager的运行原理4.1 未经优化的HashShuffleManag...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
Spark(十二)Spark Core 调优之数据倾斜调优
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
Spark(十一)Spark Core 调优之开发调优
在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
数仓架构实践3:苏宁售后体系四层模型架构
1. 复制层(SSA,system-of-records-staging-area) SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
数仓架构实践1:阿里五层模型架构
1. 2. 3. 4. 5. 1. 2. 3. 数据模型可能采用反范式设计,合并信息等。4. 5. 干货:解码OneData,阿里的数仓之路。...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Flink】(二)详解 Flink 运行架构
写在前面:我是「云祁」,一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁,或雨于渊 ] ,甚是喜欢。 写博客一方面是对自己学习的一点点总结及记录,...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Flink】(一)初识 Flink
写在前面:我是「云祁」,一枚热爱技术、会写诗的大数据开发猿。昵称来源于王安石诗中一句 [ 云之祁祁,或雨于渊 ] ,甚是喜欢。 写博客一方面是对自己学习的一点点总结及记录,...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Azkaban 】(二)十分钟搞定 Azkaban 安装,亲测完美!
Azkaban Web 服务器:azkaban-web-server-2.5.0.tar.Azkaban Excutor 执行服务器:azkaban-executor-se...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Azkaban】(一)Azkaban 入门
5、 需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。特性HamakeOozieAzkabanCascading工作流描述语言XMLXML (xPDL b...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Flume】(五)Flume 企业开发实战(自定义 Interceptor、自定义 Source、自定义 Sink)
到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。0.1.创建 flume-file-fl...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【NiFi】(二)三分钟搞定 NiFi 安装与简单使用!
命令:wget -b http://mirror.bit.edu.cn/apache/nifi/1.8.0/nifi-1.8.0-bin.tar.命令:tar -zxvf ...
赞
1
分享
云祁
公众号:云祁QI
·
2年前
关注
【NiFi】(一)NiFi 简介及核心概念
Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
一、前言二、项目准备2.1 添加Kafka的pom依赖2.2 启动zookeeper集群2.3 启动kafka集群2.4 创建topic2.三、KafkaUtils.cre...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
关于数据埋点的认识以及在流量分析系统中的实际使用
一、前言二、“埋点”知多少三、“埋点”有何用四、几种埋点“姿势”4.1 前端埋点4.1.1 代码埋点4.1.2 可视化埋点4.1.4.2 后端埋点4.五、最理想的埋点方式?...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Spark MLlib】(六)协同过滤 (Collaborative Filtering) 算法分析
一、协同过滤1.1 概念1.二、矩阵分解2.1 显式矩阵分解2.2 隐式矩阵分解(关联因子分确定,可能随时会变化)2.1.协同过滤是一种借助"集体计算"的途径。它利用大量已...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【Spark MLlib】(一)架构解析(包含分类、回归、聚类和协同过滤)
底层基础:包括Spark的运行库、矩阵库和向量库;算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;实用程序:包括测试数据的生成、外部数据的读入等功能。底层基础...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
初识 Spark MLlib 机器学习
Spark MLlib是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
Spark 中 ML 和 MLlib 的特点和区别
大数据学习过程中一个重要的环节就是spark,但是在spark中有很多的知识点,很多人都傻傻分不清楚,其中,最易搞混的就是ml与mllib的区别,所以我们不妨来详细的了解一...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
【MongoDB】(三)MongoDB 基本操作
MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB 旨在为WEB应用提供可...
赞
评论
分享
云祁
公众号:云祁QI
·
2年前
关注
数据仓库系列(四)数仓架构以及多维数据模型的设计
一、前言二、数据仓库的定义三、数据仓库的特点四、数据仓库的作用五、数据仓库的架构六、数据仓库的要求七 、数据仓库分层八、数据仓库四个层次的划分8.1 ODS层8.2 PDW...
2
评论
分享
下一页
个人成就
文章被点赞
471
文章被阅读
178,504
掘力值
4,779
关注了
2
关注者
269
收藏集
0
关注标签
6
加入于
2020-03-29