首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
user7750638035813
更多收藏集
微信扫码分享
微信
新浪微博
QQ
40篇文章 · 0订阅
SQL 统计连续登陆与留存率
1.sql统计连续登录用户; 2.sql计算两种常用的留存率。 mysql环境,主要使用窗口函数和自连接。
大数据现状和未来展望--百度大数据主任架构师马如悦访谈
导读:6 月 1 ~ 2 日,GIAC 全球互联网架构大会将于深圳举行。GIAC 是一个面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有腾讯、阿里巴巴、百度、今日头条、科大讯飞、新浪微博、小米、美图、Oracle、链家、唯品会、京东、饿了么、美团…
Spark学习(一)——运行模式与运行流程
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce和Storm流式实时计算引擎等。 Executor: 某个Application运行在worker节点上的一个进程,该进程负责运行某些Task,并且负责将数据存到内存或磁盘上,每个Appl…
Spark 系列:『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task
know more, do better
数据库存储系列(1)列式存储
从数据的存储和检索角度看,我们通常会将数据库系统分为两类:OLTP, OLAP。这个划分体现了我们对于数据存储效率,查询效率在不同场景下的预期。
什么是列式存储,一文秒懂
我们最先接触的数据库系统,大部分都是行存储系统。大学的时候学数据库,老师让我们将数据库想象成一张表格,每条数据记录就是一行数据,每行数据包含若干列。所以我们对大部分数据存储的思维也就是一个复杂一点的表格管理系统。我们在一行一行地写入数据,然后按查询条件查询过滤出我们想要的行记录…
Hive入门篇——Hive安装配置,数据存储,表操作
Hive 是 Hadoop 家族中一款数据仓库产品,Hive 最大的特点就是提供了类 SQL 的语法,封装了底层的 MapReduce 过程,让有 SQL 基础的业务人员,也可以直接利用 Hadoop 进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。 …
大数据之hadoop / hive / hbase 的区别是什么?有什么应用场景?
1. hadoop 它是一个分布式计算+分布式文件系统,前者其实就是 MapReduce,后者是 HDFS 。后者可以独立运行,前者可以选择性使用,也可以不使用 2. hive 通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通…
Kafka架构及基本原理简析
Kafka简介 Kafka是一个由Scala和Java编写的企业级的消息发布和订阅系统,最早是由Linkedin公司开发,最终开源到Apache软件基金会的项目。Kafka是一个分布式的,支持分区的,
大数据开发快速入门Flume(第十三篇)
一、什么是Flume Flume是一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。通俗来讲:Flume是一个很靠谱、很方便、很强大的日志采集工具。