GPU调度 - Value_Think_Power的收藏集 - 掘金

GPU调度

Value_Think_Power 创作等级LV.3

更多收藏集

30篇文章 · 0订阅

Go语言“正统”在中国？这6点教你写好Go代码！

数据显示，中国 Gopher 人数全球占比最高，Go 语言在国内的火热态势甚至让创始人 Rob Pike 惊讶到不敢想象，颇有一种 Golang 正统在中国的感觉。

腾讯云开发者
2年前
7.9k
111
9

Go语言“正统”在中国？这6点教你写好Go代码！

无状态节点服务的缓存数据同步实现

在目前需求背景下要设计一套底层服务系统，提供一系列基本数据请求接口，这里把该系统服务称为P，为保证高可用高可靠性，P系统最少依赖外部中间件，例如数据库消息队列等组件，服务所涉及的数据全部缓存到本地缓存

WizCode
4年前
1.3k
1
评论

有状态服务 & 无状态服务

一、定义：无状态服务：就是没有特殊状态的服务,各个请求对于服务器来说统一无差别处理,请求自身携带了所有服务端所需要的所有参数(服务端自身不存储跟请求相关的任何数据,不包括数据库存储信息) 有状态服务

向一路北
4年前
4.1k
16
评论

架构设计之“无状态”和“有状态”浅析

「数据一致性」和「高可用」其实本质是一个通过提升复杂度让整体更完善的方式。本文主要讲一些让系统更简单，更容易维护的东西——「易伸缩」，首当其冲的主题就是「stateless」，也叫「无状态」。

试剑江湖
4年前
7.8k
23
评论

Kubernetes弹性扩缩容之HPA和KEDA

前言传统意义上说，弹性伸缩主要解决的问题是容量规划与实际负载的矛盾。而云计算为云原生中提供的优势之一就是弹性能力，从Kubernetes实战出发，不管是在业务稳定性保障还是成本治理角度，弹性扩缩容能

Kubernetes弹性扩缩容之HPA和KEDA

基于 Ray 的大规模离线推理

大模型离线推理，是指在具有数十亿或数千亿参数的大规模模型上进行分布式推理的过程。相较于常规模型推理，在模型切分、数据处理和数据流、提升 GPU 利用率方面面临了很大挑战。

字节跳动云原生计算
2年前
3.3k
2
评论

DeepSpeed 推理: 具有定制推理内核和量化支持的多 GPU 推理

本文总结了 DeepSpeed Inference 系统的主要三个特性，如具有自适应并行性的多 GPU 推理、专为推理优化的 CUDA 内核和灵活的量化感知训练以及量化推理内核。

嵌入式视觉
2年前
2.4k
1
评论

DeepSpeed 推理: 具有定制推理内核和量化支持的多 GPU 推理

GTC 2022：GPU推理加速在OPPO NLP场景的优化落地

导读：本文主要分享OPPO机器学习团队在Nvidia GTC 2022会议上的投稿经验，以及我们在GPU推理加速在NLP场景应用上所做的工作和落地后的实际效果。在上周结束的Nvidia GTC 2022会议上，OPPO数智工程事业部机器学习...

安第斯智能云
4年前
1.1k
点赞
评论

KubeVela + KEDA：为应用带来“与生俱来”的弹性伸缩能力

联合作者 | Yan Xun，阿里云 EDAS 团队高级工程师 Andy Shi，阿里云开发者倡导者 Tom Kerkhove，Codit 容器化业务负责人兼 Azure 架构师、KEDA 维护者、

阿里云云原生
4年前
1.1k
5
评论

比心云平台基于阿里云容器服务 ACK 的弹性架构实践

本文主要探讨比心云平台如何利用阿里云容器服务 ACK，来构建应用弹性架构，进一步优化计算成本。点击立即查看！

阿里云云原生
3年前
1.8k
10
评论