首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
user6869415006039
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
58
文章 58
沸点 0
赞
58
返回
|
搜索文章
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据交互式计算引擎---Presto框架 | 青训营笔记
本篇笔记我们主要论述Presto框架,研究它可以让我们深入理解 SQL Parser 、 常见算子的实现、资源管理与调度、查询优化等...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Hadoop集群的优化方案 | 青训营笔记
学习了Hadoop的基础框架知识并且搭建了属于自己的Hadoop集群后,为了提高集群处理任务的效率,我们可以对它进行优化...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Java虚拟机--JVM简述 | 青训营笔记
本篇文章我们简单介绍下Java虚拟机--JVM基础知识,我们主要从JVM的定义、内存结构等方面来叙述,对JVM知识并不是很了解的同学可以仔细阅读...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之 Zookeeper框架 | 青训营笔记
本篇文章我们主要说一下 大数据中的Zookeeper框架,它是一种分布式的协调服务,可以在分布式系统中共享配置,协调锁资源,提供命名服务。...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Hadoop--作业提交全过程解析(Hadoop工作流程) | 青训营笔记
下面我们详细介绍下作业提交的全过程,我们从 作业提交、作业初始化、任务分配、任务运行、进度和状态更新、作业完成六大方面去具体阐述...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之Hive框架 | 青训营笔记
本篇文章我们主要讲述一下Hive框架的基本概念---什么是Hive、Hive的优缺点以及架构原理。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之HBase数据库 | 青训营笔记
上一次我们说了基于Hadoop的一个数据仓库工具Hive,它可以将结构化的数据文件映射为一张表并提供类SQL语法(HQL)来分析数据。这次我们讲述下分布式、可扩展、支持海量...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Hadoop--资源调度器Yarn | 青训营笔记
1. YARN基础架构 YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Contai...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
基于Hadoop的大数据分布式集群架构搭建
我们知道Hadoop是一个由 Apache基金会 开发的分布式系统基础架构,主要解决海量数据的存储和分析计算问题。本篇文章我们主要基于Hadoop搭建一个大数据分布式集群架...
5
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Hadoop--分布式计算组件MapReduce编程规范 | 青训营笔记
MapReduce编程规范 用户编写的MapReduce程序分成三个部分:Mapper、Reducer 和 Driver。...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
Hadoop--分布式计算组件MapReduce概述 | 青训营笔记
MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据计算引擎---Spark | 青训营笔记
大数据计算引擎---Spark技术 | 青训营笔记 Spark是一种基于内存的快速、通用、可扩展的大数据分析处理引擎;Spark 可以带来上百倍的性能提升...
3
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之Flume | 青训营笔记
Flume 是由cloudera软件公司产出的可分布式日志收集系统,为hadoop相关组件。Flume是一个高可用的、高可靠的、分布式的海量日志采集、集合和传输的系统。...
4
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之Flink
Flink项目的理念是:“Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源的有状态的流处理框架”。...
7
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之ElasticSearch
对于大数据,我们也许对流式计算引擎FLink,批式计算引擎Spark非常了解,但可能对ElasticSearch并不是非常清楚,那么我们本篇文章就来讲一下分布式搜索和分析引...
5
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之Flink SQL编程
上篇文章我们简述了Flink的基础知识,本篇文章我们主要论述一下Flink的核心API--Flink SQL的基础知识和编程。...
10
评论
分享
user6869415006039
赞了这篇文章
欣xy
2年前
关注
数据增强你真的了解吗
数据增强是一种策略,使从业者无需收集新数据就能显著提升已有数据的多样性,从而更好地服务训练模型。诸如裁剪、填充和水平翻转等数据增强技术通常用于训练大型神经网络。...
36
3
分享
user6869415006039
赞了这篇文章
欣xy
2年前
关注
带你手写MR中的自定义Partitioner分区
上文我们说了在Reduce阶段可以自定义分区来防止数据倾斜情况的发生,那我们这篇文章呢,就详细的讲解下Partition分区,并且实现一个自定义分区的具体需求。...
35
1
分享
user6869415006039
赞了这篇文章
欣xy
2年前
关注
一文带你了解深度学习的前置预备知识(下)
仅包含一个数值的我们称之为*标量(scalar),它由只有一个元素的张量表示。我们可以将向量视为标量值组成的列表,这些标量值称为向量的元素(element)或分量(comp...
29
评论
分享
user6869415006039
赞了这篇文章
欣xy
3年前
关注
大数据技术之Kafka
这篇文章我们讲解一下高吞吐量的分布式发布订阅消息系统 Kafka 的基础知识。 Kafka是一个分布式的基于 发布/订阅模式 的消息队列(MessageQueue),主要应...
6
评论
分享
下一页
关注了
1
关注者
0
收藏集
1
关注标签
0
加入于
2022-09-29