掌握跨集群Elastic Fleet部署,提升全球运维效能

5 阅读6分钟

提升全球运维水平:掌握基于Fleet的多集群Elastic部署

如今,全球性企业的分布式基础设施已成为常态。组织机构跨越各大洲运营,其驱动力源于贴近客户与满足法规要求。对Elastic Stack而言,这一现实通常转化为多集群部署模式,数据在多个地理上分散的Elasticsearch集群中收集和存储。

然而,为何要采用这种复杂的模式?将数据存储去中心化的决定通常由三个关键因素驱动:

  1. 数据主权与法规遵从性:对于在欧盟、澳大利亚或中国等地区运营的组织,法律要求某些类型的数据(如个人、财务或国家安全数据)必须物理存储在该国境内。这一被称为数据主权的概念是不可协商的。将数据存储在本地专用集群是满足这些严格且往往复杂的法规要求的唯一途径。
  2. 性能、延迟与成本优化:虽然统一平台是分析的理想选择,但在大陆间传输海量原始数据成本极高且耗时。
    • 成本:跨区域数据传输费用(出口费用)是一项重大的经常性支出。本地化数据收集可最大限度地降低这些成本。
    • 延迟:将代理数据发送到数百或数千英里之外的集群可能带来无法接受的延迟,特别是对于性能敏感型应用或低带宽边缘设备。本地集群确保了快速、可靠的数据摄入。
  3. 弹性与本地自治:多集群设计提高了整体系统的弹性。如果一个区域或本地集群发生中断,其他区域的数据摄入和本地操作仍不受影响。此外,本地运维团队可以保持对其直接数据和索引的自主控制,这在高度分割的组织中至关重要。

许多Fleet部署涉及安装在不同位置的Elastic代理,这些代理需要将数据存储在本地集群中。然而,操作人员需要一个统一视角来查看所有代理,以及一个用于执行升级、策略组织和指标收集等任务的集中管理界面。

统一全球Fleet管理

随着近期(9.1版本中提供的)增强功能,Elastic Fleet已从单一集群管理器转变为一个真正的全球Fleet管理平台,解决了分布式管理问题,同时保留了本地化数据的优势。

核心创新简单而强大:将代理的数据目的地与代理的管理控制平面分离。

  1. 全球Fleet管理:集中控制,本地数据

    此功能使操作人员能够在不牺牲数据主权或产生高昂出口成本的情况下,实现关键的“单一管理平台”视图。

    工作原理

    • 本地数据路由:Elastic代理仍配置为将其操作和可观测性数据(例如,日志、指标、安全事件)发送到本地Elasticsearch集群。
    • 集中控制:同时,包含代理状态、版本和健康信息的代理检查负载被路由到中央管理集群。

    结果是,中央管理集群中的Fleet维护着全球范围内部署的每个代理的全局视图,尽管摄入的大部分数据都驻留在本地。操作人员能够立即获得高层次概览,以便执行集中任务,例如:

    • 监控所有区域的代理健康状况
    • 调度和协调整个机队的升级
    • 在全球范围内组织代理策略
    • 维护所有分布式资产的全面清单
    • 集中发起操作并分析从不同代理收到的响应
  2. 集成同步:大规模确保一致性

    在分布式模型中,跨数十个集群保持一致的安防和可观测性标准也许是最大的挑战。集成同步通过确保所有远程集群自动接收与管理集群相同的集成内容,直接解决了这个问题。

    同步优势

    • 一次安装,全局部署:操作人员现在只需在中央管理集群中安装一次新的集成(例如新的监控包)。Fleet负责在所有链接的远程Elasticsearch集群之间可靠地同步和更新该集成。
    • 统一服务操作:这种一致性对于像OSquery这样的服务至关重要。您可以在中央集群中安装OSquery集成,Fleet确保所有代理,无论其数据目的地如何,都在运行完全相同的配置。然后,操作人员可以从中央管理集群发起服务操作,来自地理上分散的代理的响应会被汇总并显示在中央Fleet UI中。
    • 预构建数据视图:为了使跨这些集群的安防和可观测性分析无缝衔接,Fleet现在还支持使用预构建数据视图。这消除了手动拼凑零散数据源所需的工作量,使分析师能够像查询所有数据都驻留在一个逻辑空间中一样查询数据,从而实现多集群用户所渴望的统一分析。

空间感知:企业级隔离

对于将Elastic作为内部或外部租户的“数据即服务”平台来运行的团队,简单的全局管理是不够的;他们需要隔离和细粒度控制。为了支持此企业用例,Fleet引入了空间感知和细粒度的角色权限。此前,Fleet中的所有用户都可能查看和修改所有内容。现在,操作人员可以:

  • 定义细粒度角色权限:指定关于代理、代理策略或Fleet设置的角色读写访问权限。例如,专门的安防团队可以被授予仅访问某些代理策略的权限,而服务台团队可能只能访问代理选项卡进行故障排除。
  • 使用空间隔离:自9.1版本起,Fleet现已完全支持空间感知。一个Kibana空间(代表一个租户或特定团队)内的角色和用户将无法访问另一空间中的Fleet资源。一个代理策略可以被分配到一个或多个空间,从而精确控制谁可以管理哪些策略,进而控制哪些代理。

这使得组织能够构建高度精细的平台,为下游租户提供本地化管理能力,同时保持对核心平台和全局策略的集中、权威控制。

管理复杂度

Fleet中Elastic的新多集群功能直接解决了分布式数据因合规性和成本而产生的必要性,与为简化及一致性而需集中管理的运维需求之间长期存在的矛盾。

通过提供全球Fleet管理、空间感知和集成同步,Elastic为全球运维提供了一个真正的“单一管理平台”。平台团队现在可以放心地在任意数量的集群上扩展其Elastic代理部署。安防和可观测性策略得到了一致执行,同时团队严格遵守数据主权规则,并最大限度地减少了不必要的跨区域成本。

如果您当前正在运行分布式Elastic架构或正在规划全球扩展,这些功能对于释放大规模效率与一致性至关重要。FINISHED