大模型实践

大模型实践

大模型实践

大模型实践

等 96 人订阅共84篇文章创建于2023-06-06

MindIE 1.0.RC1 发布，华为昇腾终于推出了针对LLM的完整部署方案，结束小米加步枪时代

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一

1年前
1.6k
1
1

大模型推理优化技术-KV Cache

近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。

1年前
9.5k
15
3

迄今为止最强大的开源 LLM，15 万亿 Token 预训练的 LLaMA3 强势来袭

刚刚 Meta Llama3 强势发布，迄今为止功能最强大的公开可用的 LLM。此版本在经过 15 万亿个 Token 上预训练的语言模型，具有 8B 和 70B 两种参数规模，可以支持广泛的用户场景

1年前
510
点赞
评论

万字长文谈深度神经网络剪枝综述

0 摘要现代深度神经网络，特别是最近的大语言模型，具有巨大的模型大小，需要大量的计算和存储资源。为了在资源受限的环境中部署现代模型并加快推理时间，研究人员越来越多地探索剪枝技术。从2020年到202

1年前
714
3
评论

大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一

1年前
4.0k
1
1

大模型稀疏化技术原理：概述

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。而大

1年前
1.1k
3
评论

突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B

前几天被内存高效训练方法 GaLore 刷屏，下面来实测一下其效果。 GaLore 核心思想梯度低秩投影（GaLore）是一种全量参数学习的训练策略，但比常见的低秩自适应方法（例如：LoRA）更节省

1年前
900
2
1

LESS：仅选择5%有影响力的数据优于全量数据集进行目标指令微调

本文给大家分享一篇论文（LESS: Selecting Influential Data for Targeted Instruction Tuning）用于选择有影响力的少量数据进行目标指令调优。

1年前
1.1k
1
评论

大模型量化技术原理-ZeroQuant系列

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
2.6k
1
评论

大模型量化技术原理-SpQR

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
975
1
评论

高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香

之前在大模型参数高效微调技术原理综述（五）-LoRA、AdaLoRA、QLoRA一文中，讲述了QLoRA的技术原理。该技术核心思想就是在不降低任何性能的情况下微调量化为 4 bit的模型。光说不练假把

1年前
860
5
3

大模型量化技术原理-AWQ、AutoAWQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
4.1k
点赞
评论

大模型量化技术原理-SmoothQuant

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
4.5k
3
评论

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模

1年前
5.0k
4
评论

大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B/BaiChuan2-7B模型推理

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一

1年前
3.6k
5
评论

大模型微调实战（八）-使用INT8/FP4/NF4微调大模型

随着，ChatGPT 迅速爆火，引发了大模型的时代变革。然而对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

1年前
2.0k
1
评论

大模型微调实战（七）-基于LoRA微调多模态大模型

随着，ChatGPT 迅速爆火，引发了大模型的时代变革。然而对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

1年前
1.3k
3
评论

TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理

随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐

1年前
2.6k
1
评论

TensorRT-LLM保姆级教程（一）-快速入门

随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐

1年前
1.3k
1
评论

大模型参数高效微调技术原理综述（六）-MAM Adapter、UniPELT

随着，ChatGPT 迅速爆火，引发了大模型的时代变革。然而对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

1年前
681
点赞
评论