本文已参与「新人创作礼」活动,一起开启掘金创作之路。 1.MAPJOIN HINT
更新时间:2022-08-22 17:51
当您对一个大表和一个或多个小表执行join操作时,可以在select语句中显式指定mapjoin Hint提示以提升查询性能。本文为您介绍如何通过mapjoin hint连接表。
因此指定的表仅能为小表,且表被加载到内存后占用的总内存不得超过512 MB。
您需要在select语句中使用Hint提示/*+ mapjoin(<table_name>) */才会执行mapjoin。需要注意的是:
引用小表或子查询时,需要引用别名。
mapjoin中多个小表用英文逗号(,)分隔,例如/+ mapjoin(a,b,c)
\
2.删除分区的数据:alter table log drop partition(dt='20200211')
3.增加分区:alter table log add partition(dt='202000202')
4.create table as select... 这样会把所有数据也放进去
5.floor,去到不大于这个数的最大整数
\
6.上传数据到odps,分区的键值不能给上传,需要在命令中确定
7.tunnel实现上传\下载数据,支持多线程,不能同时下载多个分区或者是视图数据
8.maxcompute大小写不敏感
9.mc对列行数和内容有限制
10.mapper和reducer数量不需要一样,只有在做map的时候才需要做数据分片,map好之后要对每个数据分配一个key,然后按照value排序之后给reduce
11.可以有map,无reduce,不能只有reduce.1个map不能多个reduce
12.阿里云机器学习组件都只能读写maxcompute中的表,别的不行
13.阿里云机器学习支持的是maxreduce不是mapreduce!名字不一样的
14.箱线图处理异常值
15.大数据:是聚类不是分类!;经常用的工具是DBSCAN
16.maxpcompute:用户用graphloader将大数据计算服务的表数据加载到图计算引擎中
17.package可以实现仓库的便捷授权控制