阿里云大数据acp学习(二)

107 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。
18.dataworks数据工厂的使用需要创建组织,一个组织可以有多个项目空间

19.DataWorks提供了两个系统参数,定义如下:

${bdp.system.cyctime}:定义为一个实例的定时运行时间,默认格式为yyyymmddhh24miss。仅有运行时间可以取到具体的小时、分钟时间。

${bdp.system.bizdate}:定义为一个实例计算时对应的业务日期,业务日期默认为运行日期的前一天,默认以yyyymmdd的格式显示。测试的时候会被换做测试选择的操作时间的前一天

(不是前一个小时\一个礼拜啥的!

20.rds到maxcompute,如果是用dataworks抽的话需要配置一下数据过滤条件和分区值

21.使用dataworks不同的项目空间时,可以跨表抽数据,但是一定要数据做一下指定

22.若两个任务都是按照天调度的任务,任务跨周期依赖:等待自定义任务上一周期结束,则只有自定义任务的当天和前一天都成功运行才能保证此任务的正常运行

23.上游任务可以不是同一空间的任务,同一空间也可以做上下游

24.按天调度,一天暂停只是当天暂停,之后还会继续。未运行状态不能手工停止

25Q.什么时候multiinsert?

26用户自定义标量函数能够从身份证分析出所属省份

27Q.逻辑回归:离散 线性回归:连续

28.标准化:减去绝对值,除以标准差

29Q.maxcompute可以更新数据吗,好像修改字段类型也不行

30Q.substr支持除了string之外的类型吗

30.getdate得到的日期是一样的

31.非分区表没法加分区,一开始没有分区字段也不能加或者改

32.同一列不能做普通列和分区列

33.join时,两张表都会进行分区剪裁

34.desc role ***查看权限

35Q.odps怎么查看自定义函数?