Grok-1大模型是3140亿参数混合专家模型。权重大小有300个GB左右。
01 模型细节
-
基础模型是基于大量文本数据进行训练,并没有在任何具体任务进行微调。
-
3140亿参数的Mixture-of-Experts模型(MoE),在给定的token上只有25%的权重是活跃的。
-
由xAI团队使用基于JAX和Rust的自定义训练堆栈从头开始训练,于2023年10月完成。
-
专家利用率:每个token使用了2位专家。
-
层数:64层
-
注意力头数:多头注意模块有 48个head和8个键/值 (KV)
-
词嵌入大小:48*128=6144
-
分词:使用SentencePiece分词器,共有131072个词。
-
其他特征:
-
旋转嵌入
-
支持激活分片和8位量化
-
最大序列长度(上下文):8192个词。
02 模型效果
根据测试结果显示,Grok-1 目前处于中等水平,超过了 GPT-3.5、LLaMA 2 70B,但是距离 Claude 2、GPT-4 等大模型还有一定的距离。但是开源出来,会进一步加快大模型发展进程。
03 使用指南
值得注意的事,Grok-1 参数量高达3140亿个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。
3.1 下载权重
权重文件比较大,在300GB左右,下载有2种方式:
(1) 通过种子下载器下载
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
(2)或者通过 HuggingFace Hub下载
git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False
3.2 运行代码
Grok-1 面向所有人开放,而要开始使用该模型,可以先确保上一个步骤中下载 checkpoint并将ckpt-0目录放入checkpoint,再运行测试代码。
pip install -r requirements.txt
python run.py
参考来源:
Grok 开源地址:github.com/xai-org/gro…
官方博客公告:x.ai/blog/grok-o…