首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
模型
订阅
刘利永
更多收藏集
微信扫码分享
微信
新浪微博
QQ
42篇文章 · 0订阅
迈向100倍加速:全栈Transformer推理优化
我们确定了一个最基本的事实:Transformer推理受限于内存,且大部分优化(无论来自MLSys还是建模)都基于/利用了这一事实。
一步一步的教你如何部署chatglm-6B 附加基于ray的在线推理框架实现
我们今天的目标是一步一步的实现chatglm-6B的模型部署工作。 chatglm-6b,以及基于ray serve的在线预测框架实现
基于 Ray 的大规模离线推理
大模型离线推理,是指在具有数十亿或数千亿参数的大规模模型上进行分布式推理的过程。相较于常规模型推理,在模型切分、数据处理和数据流、提升 GPU 利用率方面面临了很大挑战。
Ray on ACK 实践探索之旅 - RayCluster 篇
Ray 是一个开源框架,专为构建可扩展的分布式应用程序而设计,旨在通过提供简单直观的 API,简化分布式计算的复杂性,让开发者能够便捷高效地编写并行和分布式 Python 应用程序。
使用 KubeRay 和 Kueue 在 Kubernetes 中托管 Ray 工作负载
本文将从 Ray 为何得到 AI 研究者们的青睐,在字节如何使用 KubeRay 来托管 Ray 应用,Kueue 如何管理和调度 RayJob 三个方面进行介绍。
探索AI Agent:从大模型到智能应用的演进之路
聚焦人工智能领域的前沿技术、AI技术的落地与应用、Agent 框架的构建、人与 Agents 共存的 AI 社会等主题,和大家一起探索 AI Agent 和 AI 应用的交互创新、技术实践、落地场景
vLLM引擎参数详解 从运行日志观察vllm进行模型部署的过程
在探索llama factory的时候我们看到了llama进行模型部署的工作 启动日志 这个日志来自一个运行在服务器上的应用程序,它使用了Microsoft的LLM(大型语言模型)引擎,并且是通过Ra
从 Prometheus 到 OpenTelemetry: 指标监控的演进与实践
在上一篇:从 Dapper 到 OpenTelemetry:分布式追踪的演进之旅我们讲解了 Trace 的一
浩鲸科技:为什么要用雪花ID替代数据库自增ID?
今天咱们来看一道数据库中比较经典的面试问题:为什么要使用雪花 ID 替代数据库自增 ID?同时这道题也出现在了浩鲸科技的 Java 面试中,下面我们一起来看吧。 浩鲸科技的面试题如下: 其他面试题相对
争论不休:金额用Long还是BigDecimal?
金额的数据类型用Long还是BigDecimal? 针对这个问题,热情的网友们从各自的经历出发,提供了的方案居然不下十种,虽然有的像调侃,但都有一定的道理。相信大家也很好好奇。