大模型实践

大模型实践

大模型实践

大模型实践

等 96 人订阅共84篇文章创建于2023-06-06

DeepGEMM 技术剖析

DeepGEMM 简介 DeepGEMM 是一个用于 FP8 矩阵乘法（GEMM）的库，旨在实现简洁高效的计算，支持细粒度缩放以减轻特征异常值引起的量化误差，相关技术在 DeepSeek-V3 中被提

1月前
172
2
评论

一文搞懂大模型生成文本的解码策略

简介 LLM生成是根据提示词以及之前生成的token生成下一个token的概率分布，之后通过不同解码策略来生成下一个token（词元）。从数学角度来看，输出概率分布可以表示为：具体的LLM推理及解

1月前
101
1
评论

大模型稀疏化技术原理：DoubleSparse

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

2月前
141
1
评论

大模型算法架构：DeepSeek技术演进及剖析

随着 ChatGPT 迅速走红，这两年大家在日常工作中使用 LLM 进行的场景越来越多。本系列将针对主流算法架构进行讲解。大模型算法演进大模型算法架构：QWen技术演进及剖析大模型算法架构：De

2月前
85
1
评论

大模型量化技术原理：QoQ量化及QServe推理服务系统

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变

10月前
465
4
1

大模型量化技术原理：Atom、QuaRot

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变

10月前
987
4
评论

大模型量化技术原理：KIVI、IntactKV、KVQuant

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变

10月前
669
1
评论

大模型推理优化技术-KV Cache量化

近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。

10月前
1.7k
2
评论

大模型量化技术原理：FP6

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变

11月前
1.1k
1
评论

一文搞懂大模型文件存储格式新宠GGUF

在日常AI模型训练过程中，训练好的模型权重通常需要以一种格式存储在磁盘中。比如：目前最流行的AI框架 PyT

11月前
2.6k
1
评论

大模型低显存推理优化-Offload技术

由于 GPU 资源稀缺和昂贵，一定程度上使得大模型的应用和普及变得困难。因此，本文从大模型推理部署出发，介绍了一些低硬件成本（消费级GPU、CPU等）部署大模型的方法，并着重介绍了低显存推理优化技术O

1年前
3.7k
17
1

大模型推理服务调度优化技术-Continuous batching

近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。

1年前
2.5k
10
评论

TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型

随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型

1年前
3.5k
8
评论

大模型量化技术原理：FP8

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
1.6k
点赞
评论

一文详解模型权重存储新格式 Safetensors

在日常AI模型训练过程中，需要好的模型权重通常需要以一种格式存储在磁盘中。比如：目前最流行的AI框架 PyT

1年前
3.6k
5
1

大模型参数高效微调技术原理综述（七）-最佳实践、总结

随着，ChatGPT 迅速爆火，引发了大模型的时代变革。然而对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

1年前
635
2
评论

大模型国产化适配11-LLM训练性能基准测试（昇腾910B3）

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美

1年前
3.0k
5
4

大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程（Pytorch版）

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美

1年前
4.8k
1
3

大模型国产化适配9-LLM推理框架MindIE-Service性能基准测试

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美

1年前
3.0k
2
3

大模型国产化适配8-基于昇腾MindIE推理工具部署Qwen-72B实战（推理引擎、推理服务化）

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美

1年前
6.2k
8
20