云祁

公众号：云祁QI

大数据开发工程师

赞

99

|

搜索文章

【NiFi】（二）三分钟搞定 NiFi 安装与简单使用！

命令：wget -b http://mirror.bit.edu.cn/apache/nifi/1.8.0/nifi-1.8.0-bin.tar.命令：tar -zxvf nifi-1.8.0-bin.tar.3、配置文件（ nifi-1.8.0/conf/nifi.后台启动命令...

4年前
1.2k
点赞
1

【NiFi】（一）NiFi 简介及核心概念

Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统，用于自动化管理系统间的数据流。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑，支持从多种数据源动态拉取数据。NiFi原来是NSA(National Security Agency [美...

4年前
1.5k
点赞
评论

【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！

一、前言二、项目准备2.1 添加Kafka的pom依赖2.2 启动zookeeper集群2.3 启动kafka集群2.4 创建topic2.三、KafkaUtils.createDstream3.1 原理3.四、KafkaUtils.createDirectStream4.1 原...

4年前
452
点赞
评论

关于数据埋点的认识以及在流量分析系统中的实际使用

一、前言二、“埋点”知多少三、“埋点”有何用四、几种埋点“姿势”4.1 前端埋点4.1.1 代码埋点4.1.2 可视化埋点4.1.4.2 后端埋点4.五、最理想的埋点方式？六、流量分析系统中日志埋点6.1 选择客户端埋点6.七、日志埋点的实现7.1 客户端埋点7.所谓的埋点就是在...

4年前
607
点赞
评论

【Spark MLlib】（六）协同过滤 (Collaborative Filtering) 算法分析

一、协同过滤1.1 概念1.二、矩阵分解2.1 显式矩阵分解2.2 隐式矩阵分解（关联因子分确定，可能随时会变化）2.1.协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度，其内在思想其实就是相似度的定义。1.1、在基于用户的方法...

4年前
426
点赞
评论

【Spark MLlib】（一）架构解析（包含分类、回归、聚类和协同过滤）

底层基础：包括Spark的运行库、矩阵库和向量库；算法库：包含广义线性模型、推荐系统、聚类、决策树和评估的算法；实用程序：包括测试数据的生成、外部数据的读入等功能。底层基础部分主要包括向量接口和矩阵接口，这两种接口都会使用Scala语言基于Netlib和BLAS/LAPACK开发...

4年前
236
点赞
评论

初识 Spark MLlib 机器学习

Spark MLlib是Spark对常用的机器学习算法的实现库，同时包括相关的测试和数据生成器。

4年前
148
点赞
评论

Spark 中 ML 和 MLlib 的特点和区别

大数据学习过程中一个重要的环节就是spark，但是在spark中有很多的知识点，很多人都傻傻分不清楚，其中，最易搞混的就是ml与mllib的区别，所以我们不妨来详细的了解一下二者的区别。1. 1）定义：ark机器学习。2）主要操作的对象：DataFrame。DataFrame是D...

4年前
428
点赞
评论

【MongoDB】（三）MongoDB 基本操作

MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对...

4年前
700
点赞
评论

数据仓库系列（四）数仓架构以及多维数据模型的设计

一、前言二、数据仓库的定义三、数据仓库的特点四、数据仓库的作用五、数据仓库的架构六、数据仓库的要求七、数据仓库分层八、数据仓库四个层次的划分8.1 ODS层8.2 PDW层8.九、数据流向十、数据仓库模型设计基础10.1 维度数据模型10.2 维度数据模型建模过程10.3 维度...

4年前
1.0k
2
评论

个人成就

文章被点赞 475

文章被阅读 230,244

掘力值 4,911

加入于

2020-03-29