谷歌云代理商:‌如何用谷歌云服务器搭建大数据分析平台?‌

74 阅读2分钟

本文由【云老大】 TG@yunlaoda360 撰写

部署 Analytics lakehouse 解决方案

  • 通过控制台部署

    • 在 Google Cloud Jump Start 解决方案目录中,找到 Analytics lakehouse 解决方案。
    • 查看页面上的信息,如解决方案的大致费用和预计部署时间。
    • 点击“部署”按钮,进入配置面板。
    • 完成配置面板中的步骤,注意记录部署名称,后续删除部署时会用到。
    • 点击“部署”后,在“解决方案部署”页面查看部署状态,成功后状态将显示为“已部署”。
    • 返回“解决方案部署”页面,点击“操作”菜单,选择“查看 Looker Studio 仪表板”查看数据仪表板,选择“打开 BigQuery 编辑器”运行查询和构建机器学习模型,或选择“查看 Colab”在笔记本环境中运行查询。
  • 使用 Terraform CLI 部署

    • 克隆 GitHub 仓库到 Cloud Shell。
    • 检查是否在正确的目录,若不在则切换到正确的目录。
    • 初始化 Terraform。
    • 配置 Terraform 变量,创建 terraform.tfvars 文件并设置变量值。
    • 应用 Terraform 配置,输入必要变量值,查看将创建的资源列表,确认后输入 yes 开始部署。
    • 部署完成后,从 Terraform 输出中获取 Looker Studio 仪表板 URL、BigQuery 编辑器 URL 和 Colab 教程 URL,分别在新浏览器标签页中打开这些 URL 进行相应操作。

自定义解决方案

  • 数据湖创建:使用 Dataplex 创建数据湖,将 Cloud Storage 桶中的数据组织成数据湖中的实体或表。
  • BigLake 外部表创建:利用 BigLake 功能,使 BigQuery 和开源框架(如 Spark)能够以细粒度访问控制的方式访问数据湖中的数据。
  • 数据转换:使用 Dataproc 或 BigQuery 进行数据转换,支持包括 Apache Iceberg 在内的多种开放文件格式。
  • 数据安全保障:通过应用策略标签和行级访问策略来保障数据安全。
  • 机器学习应用:可在数据表上应用机器学习算法。
  • 数据可视化:借助 Looker Studio 创建仪表板以执行更深入的数据分析。

部署完成后操作

  • 删除部署:如果不再需要解决方案,可以删除部署以避免持续产生费用。