本文由【云老大】 TG@yunlaoda360 撰写
部署 Analytics lakehouse 解决方案
-
通过控制台部署
- 在 Google Cloud Jump Start 解决方案目录中,找到 Analytics lakehouse 解决方案。
- 查看页面上的信息,如解决方案的大致费用和预计部署时间。
- 点击“部署”按钮,进入配置面板。
- 完成配置面板中的步骤,注意记录部署名称,后续删除部署时会用到。
- 点击“部署”后,在“解决方案部署”页面查看部署状态,成功后状态将显示为“已部署”。
- 返回“解决方案部署”页面,点击“操作”菜单,选择“查看 Looker Studio 仪表板”查看数据仪表板,选择“打开 BigQuery 编辑器”运行查询和构建机器学习模型,或选择“查看 Colab”在笔记本环境中运行查询。
-
使用 Terraform CLI 部署
- 克隆 GitHub 仓库到 Cloud Shell。
- 检查是否在正确的目录,若不在则切换到正确的目录。
- 初始化 Terraform。
- 配置 Terraform 变量,创建
terraform.tfvars文件并设置变量值。 - 应用 Terraform 配置,输入必要变量值,查看将创建的资源列表,确认后输入
yes开始部署。 - 部署完成后,从 Terraform 输出中获取 Looker Studio 仪表板 URL、BigQuery 编辑器 URL 和 Colab 教程 URL,分别在新浏览器标签页中打开这些 URL 进行相应操作。
自定义解决方案
- 数据湖创建:使用 Dataplex 创建数据湖,将 Cloud Storage 桶中的数据组织成数据湖中的实体或表。
- BigLake 外部表创建:利用 BigLake 功能,使 BigQuery 和开源框架(如 Spark)能够以细粒度访问控制的方式访问数据湖中的数据。
- 数据转换:使用 Dataproc 或 BigQuery 进行数据转换,支持包括 Apache Iceberg 在内的多种开放文件格式。
- 数据安全保障:通过应用策略标签和行级访问策略来保障数据安全。
- 机器学习应用:可在数据表上应用机器学习算法。
- 数据可视化:借助 Looker Studio 创建仪表板以执行更深入的数据分析。
部署完成后操作
- 删除部署:如果不再需要解决方案,可以删除部署以避免持续产生费用。