马斯克宣布开源,xAI放出Grok-1大模型

267 阅读2分钟

Grok-1大模型是3140亿参数混合专家模型。权重大小有300个GB左右。

01 模型细节

  • 基础模型是基于大量文本数据进行训练,并没有在任何具体任务进行微调。

  • 3140亿参数的Mixture-of-Experts模型(MoE),在给定的token上只有25%的权重是活跃的。

  • 由xAI团队使用基于JAX和Rust的自定义训练堆栈从头开始训练,于2023年10月完成。

  • 专家利用率:每个token使用了2位专家。

  • 层数:64层

  • 注意力头数:多头注意模块有 48个head和8个键/值 (KV)

  • 词嵌入大小:48*128=6144

  • 分词:使用SentencePiece分词器,共有131072个词。

  • 其他特征:

  • 旋转嵌入

  • 支持激活分片和8位量化

  • 最大序列长度(上下文):8192个词。

02 模型效果

image.png

根据测试结果显示,Grok-1 目前处于中等水平,超过了 GPT-3.5、LLaMA 2 70B,但是距离 Claude 2、GPT-4 等大模型还有一定的距离。但是开源出来,会进一步加快大模型发展进程。

03 使用指南

值得注意的事,Grok-1 参数量高达3140亿个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

3.1 下载权重

权重文件比较大,在300GB左右,下载有2种方式:

(1) 通过种子下载器下载

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

(2)或者通过 HuggingFace  Hub下载

git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

3.2 运行代码

Grok-1 面向所有人开放,而要开始使用该模型,可以先确保上一个步骤中下载 checkpoint并将ckpt-0目录放入checkpoint,再运行测试代码。

pip install -r requirements.txt
python run.py

参考来源:

Grok 开源地址:github.com/xai-org/gro…

官方博客公告:x.ai/blog/grok-o…