持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第4天,点击查看活动详情
| CreateTime/EtlStartTime/EtlFinishTime/LoadStartTime/LoadFinishTime | 这几个值分别代表导入创建的时间,ETL阶段开始的时间,ETL阶段完成的时间,Loading阶段开始的时间和整个导入任务完成的时间。Broker load 导入由于没有 ETL 阶段,所以其 EtlStartTime, EtlFinishTime, LoadStartTime 被设置为同一个值。导入任务长时间停留在 CreateTime,而 LoadStartTime 为 N/A 则说明目前导入任务堆积严重。用户可减少导入提交的频率。LoadFinishTime - CreateTime = 整个导入任务所消耗时间LoadFinishTime - LoadStartTime = 整个 Broker load 导入任务执行时间 = 整个导入任务所消耗时间 - 导入任务等待的时间 |
|---|---|
| URL | 导入任务的错误数据样例,访问 URL 地址既可获取本次导入的错误数据样例。当本次导入不存在错误数据时,URL 字段则为 N/A。 |
| JobDetails | 显示一些作业的详细运行状态。包括导入文件的个数、总大小(字节)、子任务个数、已处理的原始行数,运行子任务的 BE 节点 Id,未完成的 BE 节点 Id。{"Unfinished backends":{"9c3441027ff948a0-8287923329a2b6a7":[10002]},"ScannedRows":2390016,"TaskNumber":1,"All backends":{"9c3441027ff948a0-8287923329a2b6a7":[10002]},"FileNumber":1,"FileSize":1073741824}其中已处理的原始行数,每 5 秒更新一次。该行数仅用于展示当前的进度,不代表最终实际的处理行数。实际处理行数以 EtlInfo 中显示的为准。 |
取消导入
当 Broker load 作业状态不为 CANCELLED 或 FINISHED 时,可以被用户手动取消。取消时需要指定待取消导入任务的 Label 。取消导入命令语法可执行 HELP CANCEL LOAD查看。
其他导入案例参考
- 从 HDFS 导入一批数据,数据格式为CSV,同时使用 kerberos 认证方式,同时配置 namenode HA
| 设置最大容忍可过滤(数据不规范等原因)的数据比例。 |
|---|
LOAD LABEL test_db . user_result2**(DATA INFILE ( "hdfs://node1:8020/datas/user.csv" )INTO TABLE user_resultCOLUMNS TERMINATED BY ","FORMAT AS "csv"( id , name , age , gender , province , city , region , phone , birthday , hobby , register_date )****)WITH BROKER broker_name("hadoop.security.authentication"="kerberos" ,"kerberos_principal"="doris@YOUR.COM" ,"kerberos_keytab_content"="BQIAAABEAAEACUJBSURVLkNPTQAEcGFsbw" ,"dfs.nameservices" = "my_ha" ,"dfs.ha.namenodes.my_ha" = "my_namenode1, my_namenode2" ,"dfs.namenode.rpc-address.my_ha.my_namenode1" = "node1:8020" ,"dfs.namenode.rpc-address.my_ha.my_namenode2" = "node2:8020" ,"dfs.client.failover.proxy.provider" = "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider")PROPERTIES(** "max_filter_ratio"="0.00002" ); |