真情流露

学生

大数据工程师

赞

22

|

搜索文章

赞了这篇文章

学生

·

6年前

大数据概述：传统数据与大数据的区别

1、企业内部管理系统 ,如员工考勤（打卡）记录。 1、数据增长速度比较缓慢，种类单一。 2、数据量为GB级别，数据量较小。 1、数据保存在数据库中。处理时以处理器为中心，应...

1

评论

赞了这篇文章

学生

·

6年前

大数据基础知识_什么是集群？

==集群是一组相互独立的、通过高速计算机网络互联的计算机==，它们构成了一个组，并以单一系统的模式加以管理。一个客户与集群相互作用时，集群像是一个独立的服务器。计算机集群...

1

评论

赞了这篇文章

学生

·

6年前

大数据基础知识：什么是服务器？

服务器: 也称伺服器，是一种高性能计算机，提供计算服务的设备。服务器的构成包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。由于服务器需要提供高可靠的服务，所...

1

评论

赞了这篇文章

学生

·

6年前

大数据项目流程介绍

做一道“西红柿炒鸡蛋”需要哪些步骤？项目流程...

1

评论

赞了这篇文章

学生

·

6年前

linux集群 ntp时间同步

联网状态下与互联网上提供的时钟服务器进行同步同步命令：ntpdatentp4.aliyun.com配置离线状态下的时钟同步1、设置时钟同步服务器的时间（node042012...

1

评论

赞了这篇文章

学生

·

6年前

MapReduce综合练习案例(把这练习会了MapReduce代码你就全搞定了)

提供两个文件:information.txt:student.txt:题目要求不分区前的结果（结果在本地）:分区后的结果(分区要在集群上运行)代码POM.xml==如果需要...

1

评论

赞了这篇文章

学生

·

6年前

Hive自定义函数：UDF

1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。 2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可...

1

评论

赞了这篇文章

学生

·

6年前

Hive参数配置方式

开发Hive应用时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问题。然而实践中经常遇到的一个问题是，为什么设定的参数没有起...

1

评论

赞了这篇文章

学生

·

6年前

Hive分组条件分区排序 CLUSTER BY, Sort By,DISTRIBUTE BY

GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。（1）where针对表中的列发挥作用，查询数据；having针对...

1

评论

赞了这篇文章

学生

·

6年前

Hive_JOIN语句与排序

等值JOINHive支持通常的SQLJOIN语句，==但是只支持等值连接，不支持非等值连接。==案例操作（1）查询分数对应的姓名表的别名1）好处（1）使用别名可以简化查询。...

1

评论

赞了这篇文章

学生

·

6年前

大数据概述_大数据生态系统

大数据：历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题新技术：传统方式与技术无法处理大量、种类繁多的数据，需要新的技术解决新的问题。技术人员：有了问题...

2

评论

赞了这篇文章

学生

·

6年前

大数据概述_大数据技术为什么快_ 传统数据与大数据处理方式对比

表示在需要处理更多负载时通过提高单个系统处理能力的方法来解决问题。最简单的情况就是为应用系统提供更为强大的硬件。例如如果数据库所在的服务器实例只有2G内存、低配CPU、小容...

1

评论

赞了这篇文章

学生

·

6年前

Hadoop详解以及历史版本介绍

Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可...

1

评论

赞了这篇文章

学生

·

6年前

Hive的数据压缩介绍

MR支持的压缩编码在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可...

1

评论

赞了这篇文章

学生

·

6年前

Hive的数据存储格式

行存储的特点：查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的值，所以此时行存储查询的速度...

2

评论

赞了这篇文章

学生

·

6年前

Hive的数据压缩_开启Map输出阶段压缩，开启Reduce输出阶段压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下：当Hive将输出写入到表中时，输出内容同样可以进行压缩。属性hive.ex...

1

评论

赞了这篇文章

学生

·

6年前

Hive调优_表的优化

将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度表（1000条以下的记录条数）先进内存。...

2

评论

赞了这篇文章

学生

·

6年前

Hive调优_并行执行_ 严格模式_ JVM重用_推测执行

Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情...

1

评论

赞了这篇文章

学生

·

6年前

Hive调优_ Fetch抓取

Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对...

1

评论

个人成就

文章被点赞 24

文章被阅读 12,802

加入于

2019-11-29