KubeCon + CloudNativeCon + Open Source Summit China 2021.12.9

CPU Burst：摆脱不必要的节流，同时实现高 CPU 利用率和高应用程序性能 | CPU Burst: Getting Rid of Unnecessary Throttling, Achieving High CPU Utilization and Application Performance at the Same Time - Huaixin Chang & Tianchen Ding, Alibaba

长期以来，CPU 节流一直是一个令人头疼的问题。即使当 pods 的 CPU 利用率远低于其 CPU 限制时，仍然存在许多长尾情况。
因此，开发人员很难选择合适的硬限制。到目前为止，对于这一问题的答案始终是增加 CPU 硬限制或关闭 CPU 硬限制。
然而，这一方法带来了一些新问题，如潜在的 难应付的性能影响、低 CPU 利用率和高 TCO（总拥有成本）。
最近，融入到 Linux 5.14 中的 CPU Burst 的特性，成为了彻底解决不必要的 CPU 节流问题的一个新选择。
注意到 CPU 节流是由 100 毫秒级的突发 CPU 使用引起的后，CPU Burst 的特性可允许平均 CPU 利用率低于 CPU 限制情况下可能的突发使用。
应用 CPU Burst 后，用户可以同时获得高 CPU 利用率和高应用程序性能。
在本会话中，我们将介绍执行 CPU 限制的内核机制，CPU Burst 更改的内容及其影响，以及如何评估此种更改。
在本会话结束时，您可确切地了解到是否在您的 pods 上使用 CPU Burst。

CPU Burst

Apiserver 生成器：通过聚合 Apiserver 扩展 Kubernetes 系统 | Apiserver Builder: Extending Kubernetes via Aggregated Apiserver - Min Kim, Ant Group

目前有两种可插拔的方式来扩展集群的自定义 Kubernetes 应用程序接口：自定义资源定义（也被称为 CRD）和 Apiserver 聚合（也被称为 AA）。
经过多年的发展，自定义资源定义 (CRD) 现在在几个版本的 GA 阶段处于稳定工作状态，
但另一方面，我们可能会发现自定义资源定义由于可扩展性有限，并不总是最佳选择——例如，
我们将不得不引入多个网络钩子 apiservers，以便在新的资源类型上建立准入/转换。或者，为了保持良好的兼容性，
在多个版本之间切换可能在技术上很困难。因此，如果我们希望以编码复杂度为代价实现软件开发工具包框架级的扩展，
我们可以将 Apiserver 聚合作为自定义资源定义的替代方案。我作为这个特定的官方 SIG 子项目的维护者已经 3 年多了，
我将通过一个名为 apiserver-builder 的强大命令行工具，与观众分享构建您自己的聚合 apiserver 的实用方法。

github.com/kubernetes-…

如何有效管理数以万计的 etcd 集群？ | How to Efficiently Manage Tens of Thousands of etcd Clusters? - Cong Tang & Chaofan Wang, Tencent

在管理 k8s 群集的过程中，您可能会遇到许多 etcd 管理和稳定性问题。
例如，如何通过可视化平台管理大量 etcd 集群？如何自动发现 etcd 集群的潜在危害，及时报警，甚至实现自愈？
如何顺利地将 k8s etcd 迁移到无停机时间的高性能 etcd 群集？腾讯是一家大型互联网公司和云服务提供商。
腾讯 Kubernetes 引擎拥有丰富的大规模 k8s 集群管理经验，在腾讯云上管理数万个 k8s 集群。
腾讯 Kubernetes 引擎已经实现了开源的可视化 etcd 管理平台 kstone，提供 etcd 集群注册和管理、检查、优化建议、备份、迁移、数据可视化等。
基于 kstone 项目，腾讯 Kubernetes 引擎有效地管理了数万个 etcd 集群，这大大降低了运营和维护成本。

github.com/tkestack/ks…

介绍和深入了解 TAG 应用程序交付 | Introduction and Deep - Dive into TAG App Delivery - Hongchao Deng, Alibaba & Thomas Schuetz, Dynatrace

TAG 应用程序交付专注于简化 Kubernetes 上的应用程序交付，以及改善开发者的体验。
此次讨论将展示围绕运营商、混沌工程、应用交付方法和演示应用的最新发展情况。
无论您是刚开始了解云原生应用交付，还是想要了解最新进展，此次讨论将基于应用交付领域的 CNCF 项目反馈，
为您提供正在进行的活动信息、最新发展情况和所选定的发展趋势信息。

github.com/cncf/tag-ap…

揭开企业级 Argo CD 的构成秘密 | Unveil the Secret Ingredients for Argo CD in the Enterprise-Scale - Hong Wang & Yuan Tang, Akuity Inc.

与电影《功夫熊猫》中的面汤毫无秘密配方不同的是，大量优质研究已注入企业级 Argo CD 产品之中。
您知道 Argo CD 可支持数以千计的应用程序吗？您是否曾经尝试过连接数以百计的 Kubernetes 集群？
单个应用中存在上千个对象的情况如何？我们将深入研究 Argo CD 产品，向您提供解答和最佳实践。
此外，我们还会分享和讨论一些与其他 Argo 产品有着良好协同的案例。

github.com/argoproj/ar… 7.8K

以一致的经验构建和管理多集群应用 | Build and Manage Multi-cluster Application with Consistent Experience - Yong Feng & Jianbo Sun, Alibaba

与在多集群环境中部署和管理应用程序相比，当前在本地环境中开发应用程序的用户体验存在巨大差距。
将经过良好测试的应用程序移到多集群环境时，需要付出大量的努力。
在本节课中，我们将演示如何将 KubeVela 和 OCM（开放集群管理）结合起来解决阿里云中的问题。
用户只需根据 KubeVela 应用程序规范定义一个应用程序另一种标记语言 (YAML)，其余的将由 KubeVela 和开放集群管理处理。
KubeVela 将准备一个部署工作流，包括在需要时创建 Kubernetes 集群。
开放集群管理将帮助注册集群并在集群之间分配资源。
因此，在本地开发和多集群生产部署之间部署和管理应用程序的用户体验是一致的。
我们将讨论这些用例、挑战以及相关的工作和经验。

github.com/oam-dev/kub… 3K

在阿里巴巴我们是怎样先于用户发现和定位K8s集群问题的 | How We Discover and Locate k8s Cluster Problems Before Users at Alibaba - Peng Nanguang, Alibaba

快速发现和定位问题的能力是快速恢复系统的基石，只有做到先快速发现和定位问题，才能谈如何解决问题，尽量减少用户损失。
那么如何在复杂的大规模场景中，做到真正的先于用户发现和定位问题呢？ 
我会将我们在管理大型K8S集群过程中快速发现和定位问题的一些经验和实践带给大家——我们是如何通过自研通用链路探测+定向巡检工具KubeProbe应对我们遇到的大规模集群的稳定性挑战的。
链路探测：模拟广义用户行为，探测链路和系统是否异常
定向检测：检查集群异常指标，发现未来存在或可能存在的风险点
系统增强：发现问题提速增效，根因分析
发现问题之后：后置检查和自愈，Chat-Ops

github.com/erda-projec… (未开源，和这个项目并未有关系)

基于 Kubernetes 的全场景工作负载混部 | A full-scenario colocation of workloads based on Kubernetes - Dongdong Chen & Lingpeng Chen, Tencent

对不同的工作负载（在线服务和离线作业）及时交错使用资源，使混部成为可能，可以有效提高资源利用率，降低成本。
该讲座介绍了如何通过资源预测、资源隔离、干扰检测、离线逐出等方式，在不中断在线服务 SLO 的情况下最大限度地提高资源利用率。
此外，即使用户无法提供在线服务的延迟度量，我们也可以通过 eBPF 收集内核级度量来检测干扰。
所有这些技术都是建立在原生 Kubernetes 上的。托管支持多种场景，包括容器化和非容器化在线服务，以及 Kubernetes 和 Hadoop 生态系统中的离线作业。
在腾讯，它已经部署了超过 40,000 台机器，拥有 2,000,000 多个核心，包括广告和 Ceph 存储等服务，利用率平均提高 15%，成本节约数亿美元。

github.com/Tencent/cae… 186

Kubernetes 与基于角色的访问控制 (RBAC) 和 KubeFed 的多集群和隔离 | Kubernetes Multi-Cluster and Multi-Tenancy With RBAC and KubeFed - Hongming Wan, QingCloud

软隔离是一种没有严格隔离不同用户、工作负载或应用程序的隔离形式。就 Kubernetes 而言，软隔离通常由 RBAC 和命名空间隔离。当集群管理员跨多个 Kubernetes 集群实现隔离时，会遇到许多挑战，如身份验证和授权、资源配额、网络策略、安全策略等。在本次演讲中，KubeSphere 维护人员将分享他们在设计隔离体系结构方面的经验和最佳实践。如何跨多个集群管理用户和身份验证。如何管理不同集群租户的资源配额。资源隔离机制以及如何跨多个集群授权资源。

github.com/kubesphere/… 8.3K
github.com/kubernetes-… 1.9K

Crossplane：将基础设施和服务组成定制平台应用程序接口 | Crossplane: Compose Infrastructure and Services Into Custom Platform APIs - Viktor Farcic & Aaron Eaton & Muvaffak Onuş, Upbound

在此次讨论中，我们将介绍 Crossplane 项目，描述整体愿景，并深入探讨一些具体的架构和实践范例。
Crossplane 最近被批准为 CNCF 的孵化项目，生产应用者的社区也在持续发展。
我们将学习如何使用 Crossplane 的通用控制面来配置和管理您的所有基础设施，以及如何建立您自己的定制平台和抽象，为您的开发人员提供自助服务。
我们还将了解更多关于该项目和社区的部分最新进展，以及即将发布的项目进展规划。
Crossplane 是一种社区驱动型项目，因此与项目维护人员进行合作、分享您的观点以及运用案例来影响规划方向的机会非常多！

github.com/crossplane/… 4.4K

一个关于管理具有 15k 节点和各种工作负载的 Kubernetes 集群的故事 | A story of managing kubernetes cluster with 15k nodes and various workloads - Bo Tang & Chongkang Tan, Ant Group

基于Volcano的离在线业务混部技术探索 | Exploration About Mixing Technology of Online Services and Offline Jobs Based on Volcano - Leibo Wang & Lei Wu, Huawei

为了保证服务SLA，集群需要大量冗余资源，这将导致集群资源利用率低下，资源浪费严重。
为了提高资源利用率，Volcano将在线服务和离线批处理作业混合在同一集群上。
kubelet使调度器感知到已分配资源和实际已有资源量的差距。
Volcano还提供了资源超卖能力，可将已分配给低优先级作业的空闲资源加以复用。
在操作系统维度，Volcano还通过cgroup提供任务隔离，以确保关键的在线服务QoS。

github.com/volcano-sh/… 2.1K（字节）

从以应用程序为中心的抽象将应用程序运送到多集群环境 | Ship Apps to Multi-cluster Environments from an App-centric Abstraction - Zhengyi Lai, QingCloud

许多应用程序定义和框架都来自云原生计算基金会领域，Helm 和 Operator 是 Kubernetes 生态系统中打包和管理应用程序的最流行方式。
根据云原生计算基金会 2020 年的调查，以多集群和多云为代表的企业架构已成为现代基础设施的新趋势。
如何利用以应用为中心的概念来提供自助服务，跨多个 Kubernetes 集群和云交付/部署应用程序？
KubeSphere 团队正在构建一个统一的控制面，使用户能够以一致的工作流交付应用程序和云功能。
在本次演讲中，KubeSphere 维护人员将讨论：使用 CRD 简化 Helm Chart 和 Operator 部署，
如何跨多个云传播原生应用程序，如何跨多个云管理 Operator 及其 CRD，如何在优雅的界面中扩展操作符

github.com/kubesphere/… 8.3K

超越基础架构/服务提供：Crossplane 本质与采用 | Beyond Infra/Service Provision: The Crossplane Essentials and Adoption - Guang Ya Liu & Ying Mo, IBM

作为 Kubernetes 的开源附加组件，Crossplane 允许人们组装来自多个供应商的基础架构，人们可将其作为一个高级别的抽象概念来利用，而无需编写代码。
在过去的几年时间里，Crossplane 迅速发展成为一个非常活跃的社区。人们经常讨论的 Crossplane 最常见的用例是在公共云上提供基础架构和服务。
但如你了解了 Crossplane 的本质，你会发现它可以做得更多。在本会话中，发言者将首先通过深入探讨 Crossplane 内部的一些关键因素，
分享一些关于 Crossplane 本质的想法，然后会通过现场演示探索一些有趣的使用场景，并根据实际案例研究，
详细介绍如何使用 Crossplane，例如功能编排、特定领域的可组合特性、带 Crossplane 的 GitOps 等。
这些分享均来自发言者的亲身经验，以及通过与社区紧密合作就 Crossplane 采用得到的持续观察。

github.com/crossplane/… 4.4K