首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型实践
吃果冻不吐果冻皮
创建于2023-06-06
订阅专栏
大模型实践
等 96 人订阅
共84篇文章
创建于2023-06-06
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
MindIE 1.0.RC1 发布,华为昇腾终于推出了针对LLM的完整部署方案,结束小米加步枪时代
随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一
大模型推理优化技术-KV Cache
近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。
迄今为止最强大的开源 LLM,15 万亿 Token 预训练的 LLaMA3 强势来袭
刚刚 Meta Llama3 强势发布,迄今为止功能最强大的公开可用的 LLM。此版本在经过 15 万亿个 Token 上预训练的语言模型,具有 8B 和 70B 两种参数规模,可以支持广泛的用户场景
万字长文谈深度神经网络剪枝综述
0 摘要 现代深度神经网络,特别是最近的大语言模型,具有巨大的模型大小,需要大量的计算和存储资源。为了在资源受限的环境中部署现代模型并加快推理时间,研究人员越来越多地探索剪枝技术。从2020年到202
大模型国产化适配7-华为昇腾LLM落地可选解决方案(MindFormers、ModelLink、MindIE)
随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一
大模型稀疏化技术原理:概述
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。而大
突破内存瓶颈,使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B
前几天被内存高效训练方法 GaLore 刷屏,下面来实测一下其效果。 GaLore 核心思想 梯度低秩投影(GaLore)是一种全量参数学习的训练策略,但比常见的低秩自适应方法(例如:LoRA)更节省
LESS:仅选择5%有影响力的数据优于全量数据集进行目标指令微调
本文给大家分享一篇论文(LESS: Selecting Influential Data for Targeted Instruction Tuning)用于选择有影响力的少量数据进行目标指令调优。
大模型量化技术原理-ZeroQuant系列
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模
大模型量化技术原理-SpQR
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模
高效微调技术QLoRA实战,基于LLaMA-65B微调仅需48G显存,真香
之前在大模型参数高效微调技术原理综述(五)-LoRA、AdaLoRA、QLoRA一文中,讲述了QLoRA的技术原理。该技术核心思想就是在不降低任何性能的情况下微调量化为 4 bit的模型。光说不练假把
大模型量化技术原理-AWQ、AutoAWQ
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模
大模型量化技术原理-SmoothQuant
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模
大模型量化技术原理-LLM.int8()、GPTQ
近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模
大模型国产化适配6-基于昇腾910B快速验证ChatGLM3-6B/BaiChuan2-7B模型推理
随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一
大模型微调实战(八)-使用INT8/FP4/NF4微调大模型
随着,ChatGPT 迅速爆火,引发了大模型的时代变革。然而对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。
大模型微调实战(七)-基于LoRA微调多模态大模型
随着,ChatGPT 迅速爆火,引发了大模型的时代变革。然而对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。
TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐
TensorRT-LLM保姆级教程(一)-快速入门
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐
大模型参数高效微调技术原理综述(六)-MAM Adapter、UniPELT
随着,ChatGPT 迅速爆火,引发了大模型的时代变革。然而对于普通大众来说,进行大模型的预训练或者全量微调遥不可及。由此,催生了各种参数高效微调技术,让科研人员或者普通开发者有机会尝试微调大模型。
下一页