Hugging Face简介

Hugging Face是一家美国公司，专门开发用于构建机器学习应用的工具。该公司的代表产品是其为自然语言处理应用构建的transformers 库，以及允许用户共享机器学习模型和数据集的平台。

以上来自维基百科对Hugging Face的解释

Hugging Face最初是一个面向青少年的聊天机器人应用程序公司。但是，随着他们开源了聊天机器人模型，该公司开始转变其使命，成为专注于机器学习的平台，如今已经发展成为全球最大的机器学习社区之一。除了提供数据集和大型预训练模型外，Hugging Face还构建了一个机器学习交流社区，提供丰富的机器学习课程。

当前，Hugging Face社区不仅涵盖文本处理模型，还包括图像、语音等多种模型。其大型模型数据容量巨大，例如GPT-3模型已经达到约1750亿个参数。由于其训练模型的多样性，Hugging Face的语言模型根据训练语言和数据集不同，拥有多种预训练的子模型。

Hugging Face的特点

当提到Hugging Face为何能成为目前最大的机器学习社区之一时，关键在于其基于自注意力机制的深度神经网络模型Transformer。该模型通过对序列中各个位置的信息进行自注意力权重运算，使得模型能够更好地捕捉序列中上下文信息，从而在机器翻译、文本摘要、问答系统等任务中取得了很好的效果。这个模型是Hugging Face社区的核心，而社区中的Datasets和Tokenizers库则为Transformers库提供了重要支持。

Transformers库基于Transformer模型，为何如此重要呢？原始的自然语言文本无法被机器理解和利用，因此Hugging Face公司通过基于Transformers库的API将自然语言编码为神经网络架构的形式。此外，为了保持架构的一致性，Hugging Face还通过数据集API提供了一个抽象层，使用户能够拥有、上传、训练/微调模型，并利用Hugging Face API上传已训练好的模型。这种方法是一种革命性的方式。

这些因素联合起来，赋予了Hugging Face社区在机器学习领域的巨大吸引力和影响力。

Hugging Face的重要组成部分

Hugging Face是基于一些丰富的抽象，通过使用一些单一的接口进行加载模型、使用分词器并进行数据集的使用的，大家可以了解以下比较重要的抽象

Pipeline是为了使用Hugging Face库中的预训练模型提供的抽象，它使用了简单的API进行各种任务的实现，包括：

1、确定句子的情绪是否表现为正面或者负面

2、通过得到的问题，并从对应的文本中提取得答案

3、通过掩码语言建模技术对上下文填充的编码进行输入

Pipeline是建立在Tokenizer、Model、PostProcessing三个组件上的抽象，Tokenizer就是把输入的文本做切分然后变成向量，Model负责根据输入向量提取语义信息，输出logits，Post Processing利用模型输出的结果执行具体的nlp任务比如情感分析等。

Hugging Face模型选择与使用

在上图中可以根据你所需的模型任务关键字进行模型的选择，右侧则是相关任务分支下的所有模型

选择了指定模型以后可以在模型界面了解相关模型，了解模型的Model card（模型信息）（包含模型的使用信息） Files and versions（版本与文件） community（社区）（包含模型的评价与问题）

在右下角还有针对模型可以进行的相关实验，可以通过下面的各种样例实现模型的各种功能。

如果大家还需要了解更加丰富的huggingface里面的相关功能，可以进入他们的开发文档中阅读并学习

huggingface.co/docs/transf…

下一期哈士奇将会具体拿出一些Hugging Face中一些模型的具体样例给大家进行参照，欢迎大家继续关注哈士奇呀！！！

AIGC：Hugging Face社区

Hugging Face简介

Hugging Face的特点

Hugging Face的重要组成部分

Hugging Face模型选择与使用