LLM 扫盲（二）主要关于ollamaGGUF文件全称是GPT-Generated Unified Format，是由G

GGUF

GGUF = GPT-Generated Unified Format，是由Georgi Gerganov定义发布的一种大模型文件格式,是一种二进制格式文件的规范.GGUF是一种储存模型权重的档案格式，交给GGML基底去做推理/预测，原始的大模型预训练结果经过转换后变成GGUF格式可以更快地被载入使用，也会消耗更低的资源

可以在huggingface的监视器里看模型的参数

核心特性：二进制格式，可扩展性和兼容性、全部包含。

组成信息：header、metadata key-value、张量计数、张量信息、对齐填充、张量数据、端序标识、扩展信息。

参考ywctech.net/ml-ai/ollam…

常见本地化大模型的三种下载方法

huggingface点击 - files - download

git下载

在huggingface 上设定ssh keys

git lfs install

git clone git@模型地址

huggingface_hub

在huggingface上设置access token

pip install huggingface_hub

taide为例

from huggingface_hub import hf_hub_download

hf_hub_download(
    repo_id="taide/Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit",
    token="<你的token>",
    local_dir="my-hf-model",
    filename="taide-8b-a.3-q4_k_m.gguf"
)

Llama3.1

三个不同参数规模的模型（8B、70B、405B），三个模型上下文长度都是128K

405B模型对于中小企业来说最大的价值是蒸馏

|模型大小|FP16|INT4| |8B|16GB|4GB| |70B|140GB|35GB| |405B|810GB|203GB|

模型架构没选择MoE混合专家模型

提高了用于训练前和训练后的数据的数量和质量

采用了迭代的post-training，其中每一轮使用supervised fine-tuning (SFT) 和 direct preference ptimization (DPO)。这样能够为每个回合创建最高质量的合成数据，并提高每个能力的性能。

采用 8 KV 头分组查询注意力（GQA）技术，提高了推理的可扩展性。

RoPE 超参增加至 500000。

注意力掩码可防止同一序列中不同文档之间的自注意力。

128K 词汇量（100K 来自 tiktoken，28K 额外词汇用于除英语以外的语言）。

126 层、128 个注意力头和 16384 嵌入大小。

中文翻译

blog.csdn.net/weixin_3158…

blog.csdn.net/weixin_4596…

用Ollama执行GGUF

github.com/ollama/olla…

如果想要finetune a LLM，并用ollama执行：

First fine-tune open-source hugging face AI model. huggingface.co/docs/transf…
Then do quantization and convert the model to GGUF format and re-upload to hugging face. mlabonne.github.io/blog/posts/…
Then run it with Modelfile with the GGUF format model.www.markhneedham.com/blog/2023/1…