携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第21天,点击查看活动详情
⭐️前面的话⭐️
✉️坚持和努力一定能换来诗与远方!
💭推荐书籍:📚《王道408》,📚《深入理解 Java 虚拟机-周志明》,📚《Java 核心技术卷》
💬算法刷题:✅力扣🌐牛客网
🎈Github
🎈码云Gitee
一、Hive概述
1 什么是 Hive
- Hive 由 Facebook 开源用于解决海量结构化日志的数据统计。
- Hive 是基于Hadoop的一个
数据仓库系统工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 - 要点
- 1)Hive处理的数据存储在HDFS
- 2)Hive分析数据底层的实现是MapReduce
- 3)执行程序运行在Yarn上
2 Hive 的优缺点
优点
- 1)操作接口采用类 SQL 语法,提供快速开发的能力(简单,容易上手)。
- 2)避免了去写 MapReduce,减少开发人员的学习成本。
- 3)Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
- 4)Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。
- 5)Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点
3 架构原理
4 和数据库比较
| 对比项 | Hive | RDBMS |
|---|---|---|
| 查询语言 | HQL | SQL |
| 数据存储 | HDFS | Raw Device or Local FS |
| 执行器 | Mapreduce | Executor |
| 数据插入 | 支持批量导入和单条插入 | 支持单条或者批量导入 |
| 数据操作 | 覆盖追加 | 行级更新删除 |
| 处理数据规模 | 大 | 小 |
| 执行延时 | 高 | 低 |
| 分区 | 支持 | 支持 |
| 索引 | 0.8之后加入简单索引 | 支持复杂索引 |
| 扩展性 | 高(好) | 有限(查) |
| 数据加载模式 | 读时模式(快) | 写时模式(慢) |
| 应用场景 | 海量数据查询 | 实时查询 |
5 数据
Hive安装
Hive 三种连接方式
CLI
进入到 bin 目录下,直接输入命令:
[hadoop@hadoop01 ~]$ hive
补充:
1.上面的 hive 命令相当于在启动的时候执行:hive --service cli
2.使用 hive --help,可以查看 hive 命令可以启动那些服务
3.通过 hive --service serviceName --help 可以查看某个具体命令的使用方式
参考
- Hive 总结及常见语法:blog.csdn.net/weixin_4788…