AIGC:Hugging Face社区

365 阅读4分钟

最近哈士奇在学习AIGC的过程中,了解到了Hugging Face社区,接下来,哈士奇将会在本篇文章中与大家分享最大的人工智能社区:Hugging Face

狗狠话不多,先给大家贴上Hugging Face的官方地址:huggingface.co/

Hugging Face简介

Hugging Face是一家美国公司,专门开发用于构建机器学习应用的工具。该公司的代表产品是其为自然语言处理应用构建的transformers,以及允许用户共享机器学习模型和数据集的平台。

image.png

以上来自维基百科对Hugging Face的解释

Hugging Face最初是一个面向青少年的聊天机器人应用程序公司。但是,随着他们开源了聊天机器人模型,该公司开始转变其使命,成为专注于机器学习的平台,如今已经发展成为全球最大的机器学习社区之一。除了提供数据集和大型预训练模型外,Hugging Face还构建了一个机器学习交流社区,提供丰富的机器学习课程。

当前,Hugging Face社区不仅涵盖文本处理模型,还包括图像、语音等多种模型。其大型模型数据容量巨大,例如GPT-3模型已经达到约1750亿个参数。由于其训练模型的多样性,Hugging Face的语言模型根据训练语言和数据集不同,拥有多种预训练的子模型。

Hugging Face的特点

当提到Hugging Face为何能成为目前最大的机器学习社区之一时,关键在于其基于自注意力机制的深度神经网络模型Transformer。该模型通过对序列中各个位置的信息进行自注意力权重运算,使得模型能够更好地捕捉序列中上下文信息,从而在机器翻译、文本摘要、问答系统等任务中取得了很好的效果。这个模型是Hugging Face社区的核心,而社区中的Datasets和Tokenizers库则为Transformers库提供了重要支持。

Transformers库基于Transformer模型,为何如此重要呢?原始的自然语言文本无法被机器理解和利用,因此Hugging Face公司通过基于Transformers库的API将自然语言编码为神经网络架构的形式。此外,为了保持架构的一致性,Hugging Face还通过数据集API提供了一个抽象层,使用户能够拥有、上传、训练/微调模型,并利用Hugging Face API上传已训练好的模型。这种方法是一种革命性的方式。

这些因素联合起来,赋予了Hugging Face社区在机器学习领域的巨大吸引力和影响力。

Hugging Face的重要组成部分

Hugging Face是基于一些丰富的抽象,通过使用一些单一的接口进行加载模型、使用分词器并进行数据集的使用的,大家可以了解以下比较重要的抽象

Pipeline是为了使用Hugging Face库中的预训练模型提供的抽象,它使用了简单的API进行各种任务的实现,包括:

1、确定句子的情绪是否表现为正面或者负面

2、通过得到的问题,并从对应的文本中提取得答案

3、通过掩码语言建模技术对上下文填充的编码进行输入

Pipeline是建立在Tokenizer、Model、PostProcessing三个组件上的抽象,Tokenizer就是把输入的文本做切分然后变成向量,Model负责根据输入向量提取语义信息,输出logits,Post Processing利用模型输出的结果执行具体的nlp任务比如情感分析等。

Hugging Face模型选择与使用

huggingface1.png

在上图中可以根据你所需的模型任务关键字进行模型的选择,右侧则是相关任务分支下的所有模型

huggingface2.png

选择了指定模型以后可以在模型界面了解相关模型,了解模型的Model card(模型信息)(包含模型的使用信息) Files and versions(版本与文件) community(社区)(包含模型的评价与问题)

在右下角还有针对模型可以进行的相关实验,可以通过下面的各种样例实现模型的各种功能。

如果大家还需要了解更加丰富的huggingface里面的相关功能,可以进入他们的开发文档中阅读并学习

huggingface.co/docs/transf…

下一期哈士奇将会具体拿出一些Hugging Face中一些模型的具体样例给大家进行参照,欢迎大家继续关注哈士奇呀!!!