云原生周刊:Istio 1.25.0 正式发布

182 阅读6分钟

开源项目推荐

Dstack

Dstack 是一个开源的 AI 计算管理平台,旨在简化 AI 任务的部署和管理。它支持本地和云端运行 AI 工作负载,并提供自动化的 GPU 资源调度,使开发者能够更高效地利用计算资源。Dstack 兼容 K8s,可以无缝集成到现有的基础设施中,适用于 AI 模型训练、推理和 MLOps 工作流。

SkyPilot

SkyPilot 是一个开源的云端任务调度和优化平台,旨在帮助用户高效地在多云环境中运行 AI 训练和计算任务。它支持自动选择最优的云提供商、智能分配计算资源,并提供低成本、高性能的计算优化方案。SkyPilot 适用于 AI 研究、分布式计算和大规模云端任务管理,可无缝集成 K8s 和多种云平台。

Kaito

Kaito 是一个基于 AI 的搜索引擎,旨在帮助用户更高效地检索和组织信息。它结合了大模型技术与搜索能力,使用户能够从多个数据源(如 GitHub、论文、网站等)中提取关键信息,提升研究和开发效率。Kaito 适用于开发者、研究人员和知识工作者,提供更智能的搜索体验。

RagApp

RagApp 是一个开源的 RAG(检索增强生成)应用开发框架,旨在帮助用户构建基于大语言模型的智能问答和知识检索系统。它支持从多种数据源(如文档、数据库、API)提取信息,并结合 LLM 进行智能回答,使 AI 更精准地提供基于上下文的响应。RagApp 适用于企业知识管理、聊天机器人和智能搜索等应用场景。

文章推荐

在 Kubernetes 中高效管理 AI/ML 工作负载的最佳实践

本文介绍了在 K8s 上高效运行 AI/ML 工作负载的最佳实践。首先,合理管理计算资源至关重要,建议使用 K8s 设备插件(如 NVIDIA 插件)优化 GPU 分配,并配置 CPU 和内存请求以避免资源争用。通过节点选择、亲和性规则和自动扩展机制,可以提高任务调度的灵活性和效率。此外,为了确保多租户环境的安全性,建议利用命名空间和网络策略进行隔离,并通过 RBAC 访问控制,防止未经授权的访问。

同时,监控和日志管理是保障系统稳定性的关键。集成 Prometheus 进行实时资源监控,有助于优化性能并及时发现潜在瓶颈,而集中化日志管理系统能够提升故障排查效率,确保 AI 任务的顺畅执行。通过这些实践,企业可以更高效地管理 K8s 上的 AI 训练和推理任务,提升计算资源的利用率和系统的可靠性。

K8s 1.31 中云控制器管理器的初始化挑战与解决方案

本文介绍了 K8s 1.31 版本中针对云提供商集成架构的重大变更。官方在此次更新中移除了内置的云提供商相关代码,转而采用云控制器管理器(Cloud Controller Manager,CCM)来处理云平台特定的控制逻辑。这一迁移提升了 Kubernetes 的可扩展性和云平台兼容性,但也引发了一个关键的“先有鸡还是先有蛋”问题:当 kubelet 启动并向 API 服务器注册节点时,节点仍缺少关键的云提供商信息(如地址和区域标签),而这些信息依赖 CCM 来填充,而 CCM 又需要节点完成初始化才能生效。这种相互依赖可能导致节点就绪的延迟,并带来潜在的故障风险。

为解决这一问题,集群管理员和安装工具(如 kOps 或 Cluster API)需要采取额外措施,确保 CCM 在集群启动过程中能够正确配置并与其他组件协调运行。通过优化初始化流程和资源调度策略,可以减少 K8s 1.31 迁移带来的影响,提升集群的稳定性和可管理性。

vivo 大规模容器集群运维平台实践

vivo互联网服务器团队针对大规模容器集群运维难题,自主研发了北斗运维管理平台,通过白屏化、自动化手段解决了初期黑屏操作复杂、人工巡检低效、多集群管理困难等挑战。该平台构建了节点扩缩容工具实现全流程自动化(20台扩容时间从60分钟缩短至10分钟),开发kube-doctor组件支持集群资源/节点/自定义巡检,并整合资源管理、事件中心、监控告警等核心功能,形成覆盖集群安装、组件管理、故障定位的运维体系,成功支撑 20+ 生产集群、数万节点的高效运维,累计执行 5000+ 扩缩容任务,显著提升运维标准化程度与系统稳定性。

云原生动态

Istio 1.25.0 正式发布:全面增强 Ambient 模式与流量管理

Istio 1.25 版本引入了多个重要更新和改进,增强了可观测性、安全性和可扩展性。新版本优化了 Istio 的流量管理,改进了 Sidecar 的资源使用效率,并增强了对 Kubernetes Gateway API 的支持。此外,Istio 1.25 进一步提升了身份验证和访问控制机制,增加了更多的策略配置选项,提高了整体安全性。该版本还改进了可观测性,增强了日志和指标收集能力,帮助运维人员更好地监控和管理服务网格。

Dapr v1.15 正式发布

Dapr 1.15.0 版本正式发布。此版本引入了多项新特性和改进,包括将调度器服务(Scheduler service)提升为稳定版。在此版本中,调度器服务默认用于管理 Actor 提醒(Actor reminders),取代了之前的放置服务(Placement service)。

升级至 Dapr 1.15 后,现有的 Actor 提醒将自动从放置服务迁移至调度器服务。此外,Dapr 1.15 还包含其他增强功能和修复,旨在提升分布式应用的开发体验和系统性能。

关于KubeSphere

KubeSphere (kubesphere.io)是在 Kubernetes 之上构建的开源容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、华云、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。