GGUF
GGUF = GPT-Generated Unified Format,是由Georgi Gerganov定义发布的一种大模型文件格式,是一种二进制格式文件的规范.GGUF是一种储存模型权重的档案格式,交给GGML基底去做推理/预测,原始的大模型预训练结果经过转换后变成GGUF格式可以更快地被载入使用,也会消耗更低的资源
可以在huggingface的监视器里看模型的参数
核心特性:二进制格式,可扩展性和兼容性、全部包含。
组成信息:header、metadata key-value、张量计数、张量信息、对齐填充、张量数据、端序标识、扩展信息。
常见本地化大模型的三种下载方法
huggingface点击 - files - download
git下载
在huggingface 上设定ssh keys
git lfs install
git clone git@模型地址
huggingface_hub
在huggingface上设置access token
pip install huggingface_hub
taide为例
from huggingface_hub import hf_hub_download
hf_hub_download(
repo_id="taide/Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit",
token="<你的token>",
local_dir="my-hf-model",
filename="taide-8b-a.3-q4_k_m.gguf"
)
Llama3.1
三个不同参数规模的模型(8B、70B、405B),三个模型上下文长度都是128K
405B模型对于中小企业来说最大的价值是蒸馏
|模型大小|FP16|INT4| |8B|16GB|4GB| |70B|140GB|35GB| |405B|810GB|203GB|
模型架构
没选择MoE混合专家模型
提高了用于训练前和训练后的数据的数量和质量
采用了迭代的post-training,其中每一轮使用supervised fine-tuning (SFT) 和 direct preference ptimization (DPO)。这样能够为每个回合创建最高质量的合成数据,并提高每个能力的性能。
采用 8 KV 头分组查询注意力(GQA)技术,提高了推理的可扩展性。
RoPE 超参增加至 500000。
注意力掩码可防止同一序列中不同文档之间的自注意力。
128K 词汇量(100K 来自 tiktoken,28K 额外词汇用于除英语以外的语言)。
126 层、128 个注意力头和 16384 嵌入大小。
用Ollama执行GGUF
如果想要finetune a LLM,并用ollama执行:
-
First fine-tune open-source hugging face AI model. huggingface.co/docs/transf…
-
Then do quantization and convert the model to GGUF format and re-upload to hugging face. mlabonne.github.io/blog/posts/…
-
Then run it with Modelfile with the GGUF format model.www.markhneedham.com/blog/2023/1…