首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
嵌入式视觉
掘友等级
算法开发工程师
|
商汤科技
关于博主,本科双非一本,曾3个半月考研上岸某 211,现大厂算法开发工程师,从事视觉算法开发、模型压缩部署、LLM 推理部署工作,终身学习践行者。
获得徽章 8
动态
文章
专栏
沸点
收藏集
关注
作品
赞
415
文章 388
沸点 27
赞
415
返回
|
搜索文章
最新
热门
第01期 - transformer论文解读
(直到 GPT 出来之前)大多数有竞争力的神经序列转换模型都是采用编码器-解码器结构,transformer 模型也不例外。
transformers库快速入门
本文总结了 Transformers 的常用术语并给出详细解释,然后对 transformers 库总结了快速使用方法,并结合实例代码做分析,可当作 LLM 的快速入门学习。
DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练
我们都知道大语言模型(LLM)的计算成本极高,且在许多实际场景中都会有响应速度太慢的问题,总结起来就是 LLM 的推理的有两个主要挑战:延迟(lateny)和成本(cost)。
DeepSpeed 推理: 具有定制推理内核和量化支持的多 GPU 推理
本文总结了 DeepSpeed Inference 系统的主要三个特性,如具有自适应并行性的多 GPU 推理、专为推理优化的 CUDA 内核和灵活的量化感知训练以及量化推理内核。
BLOOM模型结构详解
BLOOM模型也是 Decoder-only 架构,但和原始 decoder 结构主要有两个区别: ALiBi Positional Embeddings 和 Embedding LayerNorm。
模型压缩-量化算法概述
所谓量化,其实可以等同于低精度(Low precision)概念,常规模型精度一般使用 FP32(32 位浮点数,单精度)存储模型权重参数,低精度则表示使用 INT8、FP16 等权重数值格式。
LLaMA及其子孙模型概述
本文主要从模型推理角度去总结论文,因此没有涉及到数据集处理、模型训练及试验报告的细节,只介绍了 LLaMA 模型的主要思想以及模型结构的细节,最后介绍一些基于 LLaMA finetune 的模型。
FasterTransformer框架速览
asterTransformer 包含 Transformer 块的高度优化版本的实现,其中包含编码器 Encoder 和解码器 Decoder部分。基于 FT 可以运行完整的编码器-解码器架构模型。
大语言模型核心技术-Transformer 详解
本文详细解析了Transformer整体模型结构,并深入分析了各个layer层的原理及给出了计算公式,针对每个 layer、block 都给出了较为详细的代码实现方便深入理解网络结构。
LLM背景知识总结
在自然语言处理中,Token 是指一段文本中的基本单位,通常是一个词、一个词组或者一个字符。Tokenization 是将一段文本分解为一系列的 Token 的过程。
下一页
个人成就
优秀创作者
文章被点赞
1,445
文章被阅读
684,160
掘力值
10,328
关注了
36
关注者
307
收藏集
2
关注标签
56
加入于
2019-03-30