阿里云大数据acp学习(一)

84 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。 1.MAPJOIN HINT

更新时间:2022-08-22 17:51

产品详情

相关技术圈

我的收藏

当您对一个大表和一个或多个小表执行join操作时,可以在select语句中显式指定mapjoin Hint提示以提升查询性能。本文为您介绍如何通过mapjoin hint连接表。

因此指定的表仅能为小表,且表被加载到内存后占用的总内存不得超过512 MB。

您需要在select语句中使用Hint提示/*+ mapjoin(<table_name>) */才会执行mapjoin。需要注意的是:

引用小表或子查询时,需要引用别名。

mapjoin中多个小表用英文逗号(,)分隔,例如/+ mapjoin(a,b,c)

\

2.删除分区的数据:alter table log drop partition(dt='20200211')

3.增加分区:alter table log add partition(dt='202000202')

4.create table as select...    这样会把所有数据也放进去

5.floor,去到不大于这个数的最大整数

\

6.上传数据到odps,分区的键值不能给上传,需要在命令中确定

7.tunnel实现上传\下载数据,支持多线程,不能同时下载多个分区或者是视图数据

8.maxcompute大小写不敏感

9.mc对列行数和内容有限制

10.mapper和reducer数量不需要一样,只有在做map的时候才需要做数据分片,map好之后要对每个数据分配一个key,然后按照value排序之后给reduce

11.可以有map,无reduce,不能只有reduce.1个map不能多个reduce

12.阿里云机器学习组件都只能读写maxcompute中的表,别的不行

13.阿里云机器学习支持的是maxreduce不是mapreduce!名字不一样的

14.箱线图处理异常值

15.大数据:是聚类不是分类!;经常用的工具是DBSCAN

16.maxpcompute:用户用graphloader将大数据计算服务的表数据加载到图计算引擎中

17.package可以实现仓库的便捷授权控制