LLM 扫盲(二)主要关于ollama

248 阅读2分钟

GGUF

GGUF = GPT-Generated Unified Format,是由Georgi Gerganov定义发布的一种大模型文件格式,是一种二进制格式文件的规范.GGUF是一种储存模型权重的档案格式,交给GGML基底去做推理/预测,原始的大模型预训练结果经过转换后变成GGUF格式可以更快地被载入使用,也会消耗更低的资源

可以在huggingface的监视器里看模型的参数

image.png

核心特性:二进制格式,可扩展性和兼容性、全部包含。

组成信息:header、metadata key-value、张量计数、张量信息、对齐填充、张量数据、端序标识、扩展信息。

参考ywctech.net/ml-ai/ollam…

常见本地化大模型的三种下载方法

huggingface点击 - files - download

image.png

git下载

在huggingface 上设定ssh keys

git lfs install

git clone git@模型地址

huggingface_hub

在huggingface上设置access token

pip install huggingface_hub

taide为例

from huggingface_hub import hf_hub_download

hf_hub_download(
    repo_id="taide/Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit",
    token="<你的token>",
    local_dir="my-hf-model",
    filename="taide-8b-a.3-q4_k_m.gguf"
)

Llama3.1

三个不同参数规模的模型(8B、70B、405B),三个模型上下文长度都是128K

405B模型对于中小企业来说最大的价值是蒸馏

|模型大小|FP16|INT4| |8B|16GB|4GB| |70B|140GB|35GB| |405B|810GB|203GB|

模型架构 image.png 没选择MoE混合专家模型

提高了用于训练前和训练后的数据的数量和质量

采用了迭代的post-training,其中每一轮使用supervised fine-tuning (SFT) 和 direct preference ptimization (DPO)。这样能够为每个回合创建最高质量的合成数据,并提高每个能力的性能。

采用 8 KV 头分组查询注意力(GQA)技术,提高了推理的可扩展性。

RoPE 超参增加至 500000。

注意力掩码可防止同一序列中不同文档之间的自注意力。

128K 词汇量(100K 来自 tiktoken,28K 额外词汇用于除英语以外的语言)。

126 层、128 个注意力头和 16384 嵌入大小。

中文翻译

blog.csdn.net/weixin_3158…

blog.csdn.net/weixin_4596…

用Ollama执行GGUF

github.com/ollama/olla…

如果想要finetune a LLM,并用ollama执行: