首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
真情流露
掘友等级
学生
大数据工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
22
文章 22
沸点 0
赞
22
返回
|
搜索文章
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据概述:传统数据与大数据的区别
1、企业内部管理系统 ,如员工考勤(打卡)记录。 1、数据增长速度比较缓慢,种类单一。 2、数据量为GB级别,数据量较小。 1、数据保存在数据库中。处理时以处理器为中心,应...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据基础知识_什么是集群?
==集群是一组相互独立的、通过高速计算机网络互联的计算机==,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。 计算机集群...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据基础知识:什么是服务器?
服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备。 服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。 由于服务器需要提供高可靠的服务,所...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据项目流程介绍
做一道“西红柿炒鸡蛋”需要哪些步骤?项目流程...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
linux集群 ntp时间同步
联网状态下与互联网上提供的时钟服务器进行同步同步命令:ntpdatentp4.aliyun.com配置离线状态下的时钟同步1、设置时钟同步服务器的时间(node042012...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
MapReduce综合练习案例(把这练习会了MapReduce代码你就全搞定了)
提供两个文件:information.txt:student.txt:题目要求不分区前的结果(结果在本地):分区后的结果(分区要在集群上运行)代码POM.xml==如果需要...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive自定义函数:UDF
1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive参数配置方式
开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。然而实践中经常遇到的一个问题是,为什么设定的参数没有起...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive分组 条件 分区排序 CLUSTER BY, Sort By,DISTRIBUTE BY
GROUP BY语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。 (1)where针对表中的列发挥作用,查询数据;having针对...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive_JOIN语句与排序
等值JOINHive支持通常的SQLJOIN语句,==但是只支持等值连接,不支持非等值连接。==案例操作(1)查询分数对应的姓名表的别名1)好处(1)使用别名可以简化查询。...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据概述_大数据生态系统
大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题 新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。 技术人员:有了问题...
2
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据概述_大数据技术为什么快_ 传统数据与大数据处理方式对比
表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。例如如果数据库所在的服务器实例只有2G内存、低配CPU、小容...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hadoop详解以及历史版本介绍
Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive的数据压缩介绍
MR支持的压缩编码在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive的数据存储格式
行存储的特点: 查询满足条件的一整行数据的时候,行存储只需要找到其中一个值,其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的值,所以此时行存储查询的速度...
2
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive的数据压缩_开启Map输出阶段压缩,开启Reduce输出阶段压缩
开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下: 当Hive将输出写入到表中时,输出内容同样可以进行压缩。属性hive.ex...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive调优_表的优化
将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。...
2
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive调优_并行执行_ 严格模式_ JVM重用_推测执行
Hive会将一个查询转化成一个或者多个阶段。 这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。 默认情...
1
评论
分享
真情流露
赞了这篇文章
真情流露
学生
·
5年前
关注
Hive调优_ Fetch抓取
Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对...
1
评论
分享
下一页
个人成就
文章被点赞
24
文章被阅读
11,939
掘力值
175
关注了
19
关注者
2
收藏集
0
关注标签
9
加入于
2019-11-29