首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Natasha_
掘友等级
大数据开发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
47
文章 47
沸点 0
赞
47
返回
|
搜索文章
赞
文章( 47 )
沸点( 0 )
Why | 为什么需要虚拟内存?
冯-诺依曼老爷子告诉过我们,算术逻辑单元和控制器单元组成的 CPU 负责进行运算以及程序流程的控制。运算所需要的指令和数据由 内存 来提供。 那么,如果让你作为操作系统的顶层设计者,你会提供一种什么机
使用Datax将数据从Mysql导到Elasticsearch7.x的填坑过程和使用记录
前提:业务需要将Tidb(Mysql内核)中8亿多条数据从Mysql导到Elasticsearch7中。 一开始我首先想到,“那就使用久负盛名的ELK来做数据迁移呀!”。Logstash的作用就是一个数据收集器,可以将各种格式的数据通过过滤后,格式化地输入到Elasticsea…
编译Flink1.11保姆级教程及解决遇到的坑
一. flink-runtime-web 其中,一直编译失败的是flink-runtime-web模块,故先cd flink-runtime-web进行单独编译。 坑2:编译卡在 Running 'npm ci –cache-max=0 –no-save'flink 。因为编译…
(一)Spark RDD的基础概念
1. MapReduce和Spark的对比 MapReduce是一种计算模型,将大型数据分解成很多单个任务在集群中并行执行,然后将计算结果合并起来得到最终的结果。具体关于MapReduce的介绍可以看之前写过的文章(三)通俗易懂地理解MapReduce的工作原理。 需要写很多底…
Spark 的核心概念 RDD
RDD(Resilient Distributed Dataset) 叫着 弹性分布式数据集 ,是Spark 中最基本的抽象,它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点:自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时…
从Hadoop到Spark、Flink,大数据处理框架十年激荡发展史!
当前这个数据时代,各领域各业务场景时时刻刻都有大量的数据产生,如何理解大数据,对这些数据进行有效的处理成为很多企业和研究机构所面临的问题。本文将从大数据的基础特性开始,进而解释分而治之的处理思想,最后介绍一些流行的大数据技术和组件,读者能够通过本文了解大数据的概念、处理方法和流…
(四)Hive 数据查询详解
1. 数据准备 2. 单表查询 Hive 支持使用 GROUP BY 进行分组聚合操作。 如果是字符串,则按照字典序排序。 使用 sort by 时只会在每个 Reducer 中进行排序,这可以保证每个 Reducer 的输出数据是有序的,但不能保证全局有序。 由于 order…
(三)Hive的视图,分区表,分桶表,索引
1. 视图 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。 视图是纯粹的逻辑对象,没有关联的存储,当查询引用视图时,Hive 可以将视图的定义与查询结合起来。 在 Hive 中可以使用 CREATE VI…
下一页
个人成就
文章被点赞
82
文章被阅读
40,461
掘力值
1,016
关注了
6
关注者
34
收藏集
1
关注标签
22
加入于
2020-11-02