首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
探索云原生
掘友等级
云原生
一个云原生打工人的探索之路,专注云原生,Go,坚持分享最佳实践、经验干货。 欢迎关注微信公众号:【探索云原生】。
获得徽章 2
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
探索云原生
云原生
·
20天前
关注
HAMi vGPU 原理分析 Part4:Spread&Binpack 高级调度策略实现
上篇我们分析了 hami-scheduler 工作流程,知道了 hami-webhook、hami-scheduler 是怎么配合工作的。 本文为 HAMi 原理分析的第四...
0
评论
分享
探索云原生
云原生
·
2月前
关注
HAMi vGPU 原理分析 Part3:hami-scheduler 工作流程分析
上篇我们分析了 hami-webhook,该 Webhook 将申请了 vGPU 资源的 Pod 的调度器修改为 hami-scheduler,后续使用 hami-sche...
0
评论
分享
探索云原生
云原生
·
2月前
关注
HAMi vGPU 原理分析 Part2:hami-webhook 原理分析
上篇我们分析了 hami-device-plugin-nvidia,知道了 HAMi 的 NVIDIA device plugin 工作原理。 本文为 HAMi 原理分析的...
1
评论
分享
探索云原生
云原生
·
2月前
关注
K8s 自定义调度器 Part1:通过 Scheduler Extender 实现自定义调度逻辑
本文主要分享如何通过 Scheduler Extender 扩展调度器从而实现自定义调度策略。所谓调度 就是指给 Pod 对象的 spec.nodeName 赋值...
0
评论
分享
探索云原生
云原生
·
2月前
关注
开源 vGPU 方案 HAMi 原理分析 Part1:hami-device-plugin-nvidia 实现
本文为开源的 vGPU 方案 HAMi 实现原理分析第一篇,主要分析 hami-device-plugin-nvidia 实现原理。...
1
评论
分享
探索云原生
云原生
·
2月前
关注
开源 vGPU 方案 HAMi: core&memory 隔离测试
本文主要对开源的 vGPU 方案 HAMi 的 GPU Core&Memory 隔离功能进行测试 。...
0
评论
分享
探索云原生
云原生
·
3月前
关注
K8s v1.31 新特性:ImageVolume,允许将镜像作为 Volume 进行挂载
本文主要分享一个 K8s 1.31 增加的一个新 Feature:ImageVolume。允许直接将 OCI 镜像作为 Volume 进行挂载,加速 artifact 分发...
0
评论
分享
探索云原生
云原生
·
3月前
关注
开源 vGPU 方案:HAMi,实现细粒度 GPU 切分
本文主要分享一个开源的 GPU 虚拟化方案:HAMi,包括如何安装、配置以及使用。 相比于上一篇分享的 TimeSlicing 方案,HAMi 除了 GPU 共享之外还可以...
0
评论
分享
探索云原生
云原生
·
4月前
关注
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享...
0
评论
分享
探索云原生
云原生
·
5月前
关注
大模型微调实战:通过 LoRA 微调修改模型自我认知
本文主要分享如何使用 LLaMAFactory 实现大模型微调,基于 Qwen1.5-1.8B-Chat 模型进行 LoRA 微调,修改模型自我认知。 本文的一个目的:基于...
0
评论
分享
探索云原生
云原生
·
8月前
关注
大模型微调基本概念指北
本文主要分享一下大模型微调相关的基本概念,包括大模型(GPT)训练流程、微调(SFT)方法&分类&框架&最佳实践、强化学习(RLHF),最后则是分享了如何训练垂直领域大模型...
0
评论
分享
探索云原生
云原生
·
8月前
关注
基于 Admission Webhook 实现 Pod DNSConfig 自动注入
本文主要分享如何使用 基于 Admission Webhook 实现自动修改 Pod DNSConfig,使其优先使用 NodeLocalDNS。...
1
评论
分享
探索云原生
云原生
·
8月前
关注
使用 NodeLocalDNS 提升集群 DNS 性能和可靠性
本文主要分享如何使用 NodeLocal DNSCache 来提升集群中的 DNS 性能以及可靠性,包括部署、使用配置以及原理分析,最终通过压测表明使用后带来了高达 50%...
2
评论
分享
探索云原生
云原生
·
9月前
关注
在 K8S 中创建 Pod 是如何使用到 GPU 的: nvidia device plugin 源码分析
本文主要分析了在 K8s 中创建一个 Pod 并申请 GPU 资源,最终该 Pod 时怎么能够使用 GPU 的,具体的实现原理,以及 device plugin、nvidi...
1
评论
分享
探索云原生
云原生
·
9月前
关注
自定义资源支持:K8s Device Plugin 从原理到实现
本文主要分析 k8s 中的 device-plugin 机制工作原理,并通过实现一个简单的 device-plugin 来加深理解。 1. 背景 默认情况下,k8s 中的 ...
1
评论
分享
探索云原生
云原生
·
10月前
关注
大模型推理指南:使用 vLLM 实现高效推理
本文主要分享如何使用 vLLM 实现大模型推理服务。 1. 概述 大模型推理有多种方式比如 最基础的 HuggingFace Transformers TGI vLLM T...
0
评论
分享
探索云原生
云原生
·
10月前
关注
GPU 环境搭建指南:使用 GPU Operator 加速 Kubernetes GPU 环境搭建
本文主要分享如何使用 GPU Operator 快速搭建 Kubernetes GPU 环境。 1. 概述 上一篇文章 GPU 使用指南:如何在裸机、Docker、K8s ...
0
评论
分享
探索云原生
云原生
·
10月前
关注
GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
本文主要分享在不同环境,例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。 1. 概述 仅以比较常见的 NVIDIA GPU 举例,系统为 Lin...
0
评论
分享
探索云原生
云原生
·
11月前
关注
ArgoWorkflow教程(八)---基于 LifecycleHook 实现流水线通知提醒
本篇介绍一下 ArgoWorkflow 中的 ExitHandler 和 LifecycleHook 功能,可以根据流水线每一步的不同状态,执行不同操作,一般用于发送通知。...
0
评论
分享
探索云原生
云原生
·
11月前
关注
ArgoWorkflow教程(七)---高效的步骤间文件共享策略
之前我们分析了使用 artifact 实现步骤间文件共享,今天分享一下如何使用 PVC 实现高效的步骤间文件共享。 1. 概述 之前在 artifact 篇我们演示了如何使...
0
评论
分享
下一页
个人成就
文章被点赞
31
文章被阅读
16,232
掘力值
1,406
关注了
0
关注者
37
收藏集
0
关注标签
6
加入于
2023-03-29