首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
收藏集
订阅
用户2961268615845
更多收藏集
微信扫码分享
微信
新浪微博
QQ
13篇文章 · 0订阅
DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练
我们都知道大语言模型(LLM)的计算成本极高,且在许多实际场景中都会有响应速度太慢的问题,总结起来就是 LLM 的推理的有两个主要挑战:延迟(lateny)和成本(cost)。
大模型的好伙伴,浅析推理加速引擎FasterTransformer
最近几个月,随着ChatGPT的现象级表现,大模型如雨后春笋般涌现。而模型推理是抽象的算法模型触达具体的实际业务的最后一公里。 但是在这个环节中,仍然还有很多已经是大家共识的痛点和诉求,比如: 任何线
最强分布式工具Redisson(一):分布式锁
为什么我要用Redisson?最好的轮子已经在时间中筛选,像使用Java对象一样使用分布式工具,这就是Redisson
推荐收藏系列:一文理解JVM虚拟机(内存、垃圾回收、性能优化)解决面试中遇到问题
一. JVM内存区域的划分 JVM栈(Java Virtual Machine Stacks): Java中一个线程就会相应有一个线程栈与之对应,因为不同的线程执行逻辑有所不同,因此需要一个独立的线程栈,因此栈存储的信息都是跟当前线程(或程序)相关信息的,包括局部变量、程序运行…
【AI 充电】KServe + Fluid 加速大模型推理
KServe 是 Kubernetes 上的标准模型推理平台,专为高度可扩展的场景而构建,支持现代 Serverless 推理工作负载,用于在任意框架上提供机器学习(ML)模型服务。
深入理解Transformer技术原理 | 得物技术
谷歌在2017年发布Transformer架构的论文时,论文的标题是:Attention Is All You Need。重点说明了这个架构是基于注意力机制的。
面试官:你知道Dubbo怎么做优雅上下线的吗?你:优雅上下线是啥?
你们在使用Dubbo的时候,应用如果重启,怎么保证一个请求不会被中断处理的呢? Dubbo是如何做优雅的呢?
《一起玩dubbo》入门玩玩先
一起玩玩dubbo吧,我将会从入门、源码和应用三方面讲解该系列,有兴趣的可以关注我,跟着我一起学习和成长。
如何在java创建内存泄漏?| Java Debug 笔记
本文正在参加「Java主题月 - Java Debug笔记活动」,详情查看活动链接 提问:如何在java创建内存泄漏? 我刚接受了一次面试,我被要求用Java创建一个内存泄漏。 不用说,我觉得很愚蠢,
ThreadLocal不好用?那是你没用对!| Java Debug 笔记
ThreadLocal 的两种经典使用场景,无可取代的位置。本文通过事例的方式给大家循循渐进的演示 ThreadLocal 的价值...