收藏集 - 用户2961268615845的收藏集 - 掘金

收藏集

用户2961268615845

更多收藏集

13篇文章 · 0订阅

DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练

我们都知道大语言模型（LLM）的计算成本极高，且在许多实际场景中都会有响应速度太慢的问题，总结起来就是 LLM 的推理的有两个主要挑战：延迟（lateny）和成本（cost）。

嵌入式视觉
2年前
3.0k
2
评论

DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练

大模型的好伙伴，浅析推理加速引擎FasterTransformer

最近几个月，随着ChatGPT的现象级表现，大模型如雨后春笋般涌现。而模型推理是抽象的算法模型触达具体的实际业务的最后一公里。但是在这个环节中，仍然还有很多已经是大家共识的痛点和诉求，比如：任何线

吃果冻不吐果冻皮
2年前
3.5k
2
评论

最强分布式工具Redisson（一）：分布式锁

为什么我要用Redisson？最好的轮子已经在时间中筛选，像使用Java对象一样使用分布式工具，这就是Redisson

长江水面写日记
4年前
32k
138
12

推荐收藏系列：一文理解JVM虚拟机（内存、垃圾回收、性能优化）解决面试中遇到问题

一. JVM内存区域的划分 JVM栈（Java Virtual Machine Stacks）： Java中一个线程就会相应有一个线程栈与之对应，因为不同的线程执行逻辑有所不同，因此需要一个独立的线程栈，因此栈存储的信息都是跟当前线程（或程序）相关信息的，包括局部变量、程序运行…

Ccww
6年前
19k
300
8

【AI 充电】KServe + Fluid 加速大模型推理

KServe 是 Kubernetes 上的标准模型推理平台，专为高度可扩展的场景而构建，支持现代 Serverless 推理工作负载，用于在任意框架上提供机器学习（ML）模型服务。

阿里云云原生
2年前
3.1k
点赞
评论

深入理解Transformer技术原理｜得物技术

谷歌在2017年发布Transformer架构的论文时，论文的标题是：Attention Is All You Need。重点说明了这个架构是基于注意力机制的。

得物技术
1年前
7.2k
59
2

深入理解Transformer技术原理｜得物技术

面试官：你知道Dubbo怎么做优雅上下线的吗？你：优雅上下线是啥？

你们在使用Dubbo的时候，应用如果重启，怎么保证一个请求不会被中断处理的呢？ Dubbo是如何做优雅的呢？

HollisChuang
4年前
7.1k
37
3

《一起玩dubbo》入门玩玩先

一起玩玩dubbo吧，我将会从入门、源码和应用三方面讲解该系列，有兴趣的可以关注我，跟着我一起学习和成长。

小饭饭饭饭饭饭
4年前
1.3k
8
评论

如何在java创建内存泄漏？｜ Java Debug 笔记

本文正在参加「Java主题月 - Java Debug笔记活动」，详情查看活动链接提问：如何在java创建内存泄漏？我刚接受了一次面试，我被要求用Java创建一个内存泄漏。不用说，我觉得很愚蠢，

深海001
4年前
2.5k
10
2

ThreadLocal不好用？那是你没用对！｜ Java Debug 笔记

ThreadLocal 的两种经典使用场景，无可取代的位置。本文通过事例的方式给大家循循渐进的演示 ThreadLocal 的价值...

Java中文社群
4年前
5.0k
51
9

ThreadLocal不好用？那是你没用对！｜ Java Debug 笔记