首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
尚硅谷
创建于2021-11-10
订阅专栏
大数据技术分享
等 5 人订阅
共91篇文章
创建于2021-11-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
MySql的安装与使用
图解MySQL程序结构 一、MySql数据库产品的介绍 MySQL产品的特点 MySQL数据库隶属于MySQL AB公司,总部位于瑞典,后被oracle收购。 优点: 成本低:开放源代码,一般可以免费
MySQL的10种常用数据类型
MySQL的数据类型 常用的数据类型有: 整型(xxxint) 位类型(bit) 浮点型(float和double、real) 定点数(decimal,numeric) 日期时间类型(date,tim
四种常用的微服务架构拆分方式
微服务架构并无标准架构,不然什么架构师大会也不会各个系统架构百花齐放了。虽然没有固定的套路,却有一些经验,今天就来做一个总结。 基于角色拆分 这种拆分方式常见于基础设施以及其PaaS层的架构,比如服务
Django环境搭建
python 环境准备 安装python 配置python环境变量 在系统变量中添加python的环境变量 配置path使环境变量生效 django—windows下环境准备 pip install
MySQL高可用配置
MySQL中存储着Hive所有表格的元数据信息,一旦MySQL中的数据丢失或损坏,会对整个数据仓库系统造成不可挽回的损失,为避免这种情况的发生,我们可以选择每天对元数据进行备份,进而实现MySQL H
Hive实现数据抽样的三种方法
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。 kafka全套视频学习资料:http://www
Kafka 的存储机制以及可靠性
一、kafka的存储机制 kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。 所谓的分区其实就是在kafka对应存储目录下创建的文件夹
scala安装及环境配置
Scala 语言可以运行在Window、Linux、Unix、 Mac OS X等系统上。 Mac OS X 和 Linux 上安装 Scala 第一步:Java 设置 确保你本地已经安装了 JDK
大数据技术Talend输出Mysql数据到HDFS
1. 配置talend和大数据集群的连接 1) 修改Windows本地hosts文件,添加以下内容 192.168.1.100 hadoop100 192.168.1.101 hadoop101 19
Scala 中的底类型(bottom types)
在Scala中存在两个比较特殊的类,Scala.Null和Scala.Nothing。它们是Scala面向对象的类型系统用于处理一些“极端情况”的特殊类型。 Null类是null引用的类型,他是每个引
HDFS-HA自动故障转移工作机制
学习了使用命令hdfs haadmin -failover手动进行故障转移,在该模式下,即使现役NameNode已经失效,系统也不会自动从现役NameNode转移到待机NameNode,下面学习如何配
Mysql子查询详解
子查询 某些情况下,当进行一个查询时,需要的条件或数据要用另外一个 select 语句的结果,这个时候,就要用到子查询。 例如: 为了给主查询(外部查询)提供数据而首先执行的查询(内部查询)被叫做子查
Spark与Flink 架构之间对比区别
Flink和Spark对比 通过学习,我们了解到,Spark和Flink都支持批处理和流处理,接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先,这两个数据处理框架有很多相同点。 •都基于内
zookeeper通知机制简介
1. 通知机制简介 客户端注册监听它关心的目录节点,当目录节点发生变化(数据改变、被删除、子目录节点增加删除)时,zookeeper会通知客户端。 1.1 是什么 ZooKeeper 支持watch(
Scala 下划线用法总结
Scala 是一门以 java 虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言。scala 单作为一门语言来看, 非常的简洁高效,在 Scala 中存在很多让
关于在hive任务中number of reducers的探讨
1.在默认情况下(set mapreduce.job.reduces=-1),实际运行计算过程中reducer的数量会由所读取文件的大小来决定。文件默认大小是256M,即每256M对应一个re
Spark的job、stage和task的机制论述
Spark任务调度机制论述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保
MapReduce的Shuffle过程及Hadoop优化(包括:压缩、小文件、集群优化)
一、Shuffle机制 1)Map方法之后Reduce方法之前这段处理过程叫Shuffle 2)Map方法之后,数据首先进入到分区方法,把数据标记好分区,然后把数据发送到环形缓冲区;环形缓
Spark启动及提交流程内部核心原理剖析
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,并且拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从
大数据使用Airflow实现简单的工作流调度
Airflow是一个以编程方式编写,安排和监视工作流的平台。 使用Airflow将实用工作流任务编写的有向无环图(DAG)。一个流程计划程序在遵循指定的依赖项同时在一组工作线程上执行任务。丰富的用户使
下一页