hugging face 申请大模型 | 豆包MarsCode AI 刷题

599 阅读3分钟

介绍hugging face

Hugging Face Transformers 是一家公司,在Hugging Face提供的API中,可以下载到所有前面提到的预训练大模型的全部信息和各种参数。可以认为这些模型在Hugging Face基本就是开源的了,只需要拿过来微调或者重新训练这些模型。

Hugging Face的主要产品包括Hugging Face Dataset、Hugging Face Tokenizer、Hugging Face Transformer和Hugging Face Accelerate。

  1. Hugging Face Dataset:是一个库,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速准备好数据集,以便在深度学习模型中进行训练。在Apache Arrow格式的支持下,以零拷贝读取处理大型数据集,没有任何内存限制,以实现最佳速度和效率。

  2. Hugging Face Tokenizer:是一个用于将文本转换为数字表示形式的库。它支持多种编码器,包括BERT、GPT-2等,并提供了一些高级对齐方法,可以用于映射原始字符串(字符和单词)和标记空间之间的关系。

  3. Hugging Face Transformer:是一个用于自然语言处理(NLP)任务的库。它提供了各种预训练模型,包括BERT、GPT-2等,并提供了一些高级功能,例如控制生成文本的长度、温度等。

  4. Hugging Face Accelerate:是一个用于加速训练和推理的库。它支持各种硬件加速器,例如GPU、TPU等,并提供了一些高级功能,例如混合精度训练、梯度累积等。

具体使用方法请参考:【大模型】基于Hugging Face调用大模型基础流程_如何使用huggingface上的模型-CSDN博客

如何在hugging face申请大模型

第一步:登录此网站注册账号 Hugging Face – The AI community building the future.

第二步:申请API(一定要把API复制下来保存到一个地方

第三步:到models界面,找到此项目用的大模型,即“meta-llama/Llama-2-7b-chat-hf”

第四步:获取许可,注意country的选择。 之后,等大概10-30分钟即可在邮箱中获取许可。请勿在AI练中学中尝试,下载模型的内存不够,我是个初学者,也没有在自己的环境中尝试,之后会试试的。

由于country选择的问题,大模型申请被拒,所以尝试使用hugging face镜像网站HF-Mirror。虽然尝试失败,还是想描述一下镜像的使用方法。

方法一:网页下载

在本站搜索,并在模型主页的Files and Version中下载文件。

方法二:huggingface-cli

huggingface-cli 是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。

1. 安装依赖 pip install -U huggingface_hub

2. 设置环境变量
Linux export HF_ENDPOINT=https://hf-mirror.com

3.1 下载模型 huggingface-cli download --resume-download gpt2 --local-dir gpt2

3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext

方法三:使用 hfd

hfd 是本站开发的 huggingface 专用下载工具,基于成熟工具 git+aria2,可以做到稳定下载不断线。

1. 下载hfd

wget https://hf-mirror.com/hfd/hfd.sh
chmod a+x hfd.sh

2. 设置环境变量
Linux export HF_ENDPOINT=https://hf-mirror.com 3.1 下载模型 ./hfd.sh gpt2 --tool aria2c -x 4

3.2 下载数据集 ./hfd.sh wikitext --dataset --tool aria2c -x 4

方法四:使用环境变量(非侵入式)

非侵入式,能解决大部分情况。huggingface 工具链会获取HF_ENDPOINT环境变量来确定下载文件所用的网址,所以可以使用通过设置变量来解决。 HF_ENDPOINT=https://hf-mirror.com python your_script.py

总结

本文简单介绍了hugging face,如何申请大模型,以及hf-mirror的使用方法。如果有疑问请看官方文档。

参考文档:

  1. hugging face入门中文版快速入门 - Hugging Face 中文 (hugging-face.cn)
  2. hugging face 镜像网站HF-Mirror
  3. 【大模型】基于Hugging Face调用大模型基础流程_如何使用huggingface上的模型-CSDN博客