探索云原生

云原生

一个云原生打工人的探索之路，专注云原生，Go，坚持分享最佳实践、经验干货。欢迎关注微信公众号：【探索云原生】。

赞

2

|

搜索文章

云原生

·

4月前

Buildah 简明教程：让镜像构建更轻量，告别 Docker 依赖

Buildah 是一个专注于构建 OCI 镜像的工具，Buildah CLI 工具使用底层 OCI 技术实现（例如 containers/image 和 container...

0

评论

云原生

·

8月前

HAMi vGPU 原理分析 Part4：Spread&Binpack 高级调度策略实现

上篇我们分析了 hami-scheduler 工作流程，知道了 hami-webhook、hami-scheduler 是怎么配合工作的。本文为 HAMi 原理分析的第四...

0

评论

云原生

·

9月前

HAMi vGPU 原理分析 Part3：hami-scheduler 工作流程分析

上篇我们分析了 hami-webhook，该 Webhook 将申请了 vGPU 资源的 Pod 的调度器修改为 hami-scheduler，后续使用 hami-sche...

0

评论

云原生

·

9月前

HAMi vGPU 原理分析 Part2：hami-webhook 原理分析

上篇我们分析了 hami-device-plugin-nvidia，知道了 HAMi 的 NVIDIA device plugin 工作原理。本文为 HAMi 原理分析的...

1

评论

云原生

·

10月前

K8s 自定义调度器 Part1：通过 Scheduler Extender 实现自定义调度逻辑

本文主要分享如何通过 Scheduler Extender 扩展调度器从而实现自定义调度策略。所谓调度就是指给 Pod 对象的 spec.nodeName 赋值...

0

评论

云原生

·

10月前

开源 vGPU 方案 HAMi 原理分析 Part1：hami-device-plugin-nvidia 实现

本文为开源的 vGPU 方案 HAMi 实现原理分析第一篇，主要分析 hami-device-plugin-nvidia 实现原理。...

1

评论

云原生

·

10月前

开源 vGPU 方案 HAMi: core&memory 隔离测试

本文主要对开源的 vGPU 方案 HAMi 的 GPU Core&Memory 隔离功能进行测试。...

0

评论

云原生

·

11月前

K8s v1.31 新特性：ImageVolume，允许将镜像作为 Volume 进行挂载

本文主要分享一个 K8s 1.31 增加的一个新 Feature：ImageVolume。允许直接将 OCI 镜像作为 Volume 进行挂载，加速 artifact 分发...

0

评论

云原生

·

11月前

开源 vGPU 方案：HAMi,实现细粒度 GPU 切分

本文主要分享一个开源的 GPU 虚拟化方案：HAMi，包括如何安装、配置以及使用。相比于上一篇分享的 TimeSlicing 方案，HAMi 除了 GPU 共享之外还可以...

0

评论

云原生

·

1年前

一文搞懂 GPU 共享方案： NVIDIA Time Slicing

本文主要分享 GPU 共享方案，包括如何安装、配置以及使用，最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享...

0

评论

云原生

·

1年前

大模型微调实战：通过 LoRA 微调修改模型自我认知

本文主要分享如何使用 LLaMAFactory 实现大模型微调，基于 Qwen1.5-1.8B-Chat 模型进行 LoRA 微调，修改模型自我认知。本文的一个目的：基于...

0

评论

云原生

·

1年前

大模型微调基本概念指北

本文主要分享一下大模型微调相关的基本概念，包括大模型(GPT)训练流程、微调(SFT)方法&分类&框架&最佳实践、强化学习(RLHF)，最后则是分享了如何训练垂直领域大模型...

0

评论

云原生

·

1年前

基于 Admission Webhook 实现 Pod DNSConfig 自动注入

本文主要分享如何使用基于 Admission Webhook 实现自动修改 Pod DNSConfig，使其优先使用 NodeLocalDNS。...

1

评论

云原生

·

1年前

使用 NodeLocalDNS 提升集群 DNS 性能和可靠性

本文主要分享如何使用 NodeLocal DNSCache 来提升集群中的 DNS 性能以及可靠性，包括部署、使用配置以及原理分析，最终通过压测表明使用后带来了高达 50%...

2

评论

云原生

·

1年前

在 K8S 中创建 Pod 是如何使用到 GPU 的： nvidia device plugin 源码分析

本文主要分析了在 K8s 中创建一个 Pod 并申请 GPU 资源，最终该 Pod 时怎么能够使用 GPU 的，具体的实现原理，以及 device plugin、nvidi...

1

评论

云原生

·

1年前

自定义资源支持：K8s Device Plugin 从原理到实现

本文主要分析 k8s 中的 device-plugin 机制工作原理，并通过实现一个简单的 device-plugin 来加深理解。 1. 背景默认情况下，k8s 中的 ...

1

评论

云原生

·

1年前

大模型推理指南：使用 vLLM 实现高效推理

本文主要分享如何使用 vLLM 实现大模型推理服务。 1. 概述大模型推理有多种方式比如最基础的 HuggingFace Transformers TGI vLLM T...

0

评论

云原生

·

1年前

GPU 环境搭建指南：使用 GPU Operator 加速 Kubernetes GPU 环境搭建

本文主要分享如何使用 GPU Operator 快速搭建 Kubernetes GPU 环境。 1. 概述上一篇文章 GPU 使用指南：如何在裸机、Docker、K8s ...

0

评论

云原生

·

1年前

GPU 环境搭建指南：如何在裸机、Docker、K8s 等环境中使用 GPU

本文主要分享在不同环境，例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。 1. 概述仅以比较常见的 NVIDIA GPU 举例，系统为 Lin...

0

评论

云原生

·

1年前

ArgoWorkflow教程(八)---基于 LifecycleHook 实现流水线通知提醒

本篇介绍一下 ArgoWorkflow 中的 ExitHandler 和 LifecycleHook 功能，可以根据流水线每一步的不同状态，执行不同操作，一般用于发送通知。...

0

评论

个人成就

文章被点赞 33

文章被阅读 25,166

掘力值 1,443

加入于

2023-03-29