模型 - 刘利永的收藏集 - 掘金

模型

更多收藏集

42篇文章 · 0订阅

迈向100倍加速：全栈Transformer推理优化

我们确定了一个最基本的事实：Transformer推理受限于内存，且大部分优化（无论来自MLSys还是建模）都基于/利用了这一事实。

OneFlow一流科技
1年前
3.4k
1
1

一步一步的教你如何部署chatglm-6B 附加基于ray的在线推理框架实现

我们今天的目标是一步一步的实现chatglm-6B的模型部署工作。 chatglm-6b，以及基于ray serve的在线预测框架实现

路人与大师
2年前
1.8k
4
1

基于 Ray 的大规模离线推理

大模型离线推理，是指在具有数十亿或数千亿参数的大规模模型上进行分布式推理的过程。相较于常规模型推理，在模型切分、数据处理和数据流、提升 GPU 利用率方面面临了很大挑战。

字节跳动云原生计算
2年前
3.1k
2
评论

Ray on ACK 实践探索之旅 - RayCluster 篇

Ray 是一个开源框架，专为构建可扩展的分布式应用程序而设计，旨在通过提供简单直观的 API，简化分布式计算的复杂性，让开发者能够便捷高效地编写并行和分布式 Python 应用程序。

阿里云云原生
1年前
2.3k
点赞
评论

使用 KubeRay 和 Kueue 在 Kubernetes 中托管 Ray 工作负载

本文将从 Ray 为何得到 AI 研究者们的青睐，在字节如何使用 KubeRay 来托管 Ray 应用，Kueue 如何管理和调度 RayJob 三个方面进行介绍。

字节跳动云原生计算
1年前
2.8k
1
评论

探索AI Agent：从大模型到智能应用的演进之路

聚焦人工智能领域的前沿技术、AI技术的落地与应用、Agent 框架的构建、人与 Agents 共存的 AI 社会等主题，和大家一起探索 AI Agent 和 AI 应用的交互创新、技术实践、落地场景

稀土君
1年前
2.6k
2
1

探索AI Agent：从大模型到智能应用的演进之路

vLLM引擎参数详解从运行日志观察vllm进行模型部署的过程

在探索llama factory的时候我们看到了llama进行模型部署的工作启动日志这个日志来自一个运行在服务器上的应用程序，它使用了Microsoft的LLM（大型语言模型）引擎，并且是通过Ra

闫广庆
1年前
15k
1
评论

从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践

在上一篇：从 Dapper 到 OpenTelemetry：分布式追踪的演进之旅我们讲解了 Trace 的一

crossoverJie
1年前
1.8k
8
评论

从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践

浩鲸科技：为什么要用雪花ID替代数据库自增ID？

今天咱们来看一道数据库中比较经典的面试问题：为什么要使用雪花 ID 替代数据库自增 ID？同时这道题也出现在了浩鲸科技的 Java 面试中，下面我们一起来看吧。浩鲸科技的面试题如下：其他面试题相对

Java中文社群
1年前
51k
402
152

浩鲸科技：为什么要用雪花ID替代数据库自增ID？

争论不休：金额用Long还是BigDecimal？

金额的数据类型用Long还是BigDecimal？针对这个问题，热情的网友们从各自的经历出发，提供了的方案居然不下十种，虽然有的像调侃，但都有一定的道理。相信大家也很好好奇。

萤火架构
1年前
42k
289
246

争论不休：金额用Long还是BigDecimal？