马斯克宣布开源，xAI放出Grok-1大模型Grok-1大模型是3140亿参数混合专家模型。权重大小有300个GB左右。

Grok-1大模型是3140亿参数混合专家模型。权重大小有300个GB左右。

01 模型细节

基础模型是基于大量文本数据进行训练，并没有在任何具体任务进行微调。
3140亿参数的Mixture-of-Experts模型（MoE），在给定的token上只有25%的权重是活跃的。
由xAI团队使用基于JAX和Rust的自定义训练堆栈从头开始训练，于2023年10月完成。
专家利用率：每个token使用了2位专家。
层数：64层
注意力头数：多头注意模块有 48个head和8个键/值 (KV)
词嵌入大小：48*128=6144
分词：使用SentencePiece分词器，共有131072个词。
其他特征：
旋转嵌入
支持激活分片和8位量化
最大序列长度（上下文）：8192个词。

02 模型效果

根据测试结果显示，Grok-1 目前处于中等水平，超过了 GPT-3.5、LLaMA 2 70B，但是距离 Claude 2、GPT-4 等大模型还有一定的距离。但是开源出来，会进一步加快大模型发展进程。

03 使用指南

值得注意的事，Grok-1 参数量高达3140亿个参数，其模型体积庞大，需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

3.1 下载权重

权重文件比较大，在300GB左右，下载有2种方式：

（1）通过种子下载器下载

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

（2）或者通过 HuggingFace Hub下载

git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

3.2 运行代码

Grok-1 面向所有人开放，而要开始使用该模型，可以先确保上一个步骤中下载 checkpoint并将ckpt-0目录放入checkpoint，再运行测试代码。

pip install -r requirements.txt
python run.py

参考来源：

Grok 开源地址：github.com/xai-org/gro…

官方博客公告：x.ai/blog/grok-o…