【技术专题】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - Huggingface与Transformers简介

262 阅读8分钟

大家好,我是锋哥。最近连载更新《AI大模型应用开发入门-拥抱Hugging Face与Transformers生态》技术专题。

QQ截图20260117190029.jpg 本课程主要介绍和讲解Hugging Face和Transformers,包括加载预训练模型,自定义数据集,模型推理,模型微调,模型性能评估等。是AI大模型应用开发的入门必备知识。 同时也配套视频教程《2027版 AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 视频教程(无废话版) 玩命更新中~》

Huggingface简介

Hugging Face(中文名:抱抱脸)是 2016 年成立于美国纽约的 Franco - American 开源 AI 公司,以 Transformers 库与 AI 模型共享平台为核心,构建了覆盖多模态的 AI 开发生态,被誉为 “AI 界的 GitHub”,致力于推动 AI 技术开源共享。

官方站点:huggingface.co/

一、核心基础信息

  • 创立与定位:2016 年由 Clément Delangue、Julien Chaumond 和 Thomas Wolf 创立,最初是面向青少年的聊天机器人公司,后转型为专注机器学习工具开发的平台,核心使命是降低 AI 开发门槛,让优质机器学习实践普及化。
  • 核心团队:Clément Delangue(CEO)、Julien Chaumond(CTO)、Thomas Wolf(CSO)。
  • 生态规模:截至 2026 年1月,Hugging Face Hub 托管超 200万+个预训练模型、60万 + 数据集、30 万 + AI 应用实例,吸引全球 500 万开发者参与。

二、核心产品与技术

  1. Transformers 库:Hugging Face 的核心 Python 库,提供 BERT、GPT、T5 等主流 Transformer 模型的开源实现,兼容 PyTorch、TensorFlow 和 JAX 框架,可快速完成模型加载、微调与推理,大幅简化 NLP、CV、语音等多模态任务开发流程。

  2. Hugging Face Hub:集模型、数据集、应用(Spaces)于一体的托管平台,支持 Git 版本控制,开发者可共享、发现资源,也能借助 Spaces 快速构建和演示 AI 应用。

  3. 辅助工具库

    工具库功能
    Datasets简化数据集加载、预处理,支持流式加载、内存映射等,适配大规模数据处理
    Accelerate简化多 GPU/TPU 分布式训练流程,提升训练效率
    Diffusers提供扩散模型实现,助力图像生成等任务开发
    Tokenizers高效快速的分词工具,适配各类模型的文本处理需求
  4. 安全与格式优化:推出 Safetensors 格式,2023 年成为默认格式,解决 Python pickle 格式的安全隐患,支持张量延迟加载。

三、应用场景

  • 科研领域:研究者可快速获取前沿预训练模型与数据集,用于 NLP、CV、语音等多领域的模型测试与优化,无需从零训练,节省算力与时间。
  • 企业开发:企业可利用平台资源开发聊天机器人、文本分析系统、图像识别工具等,通过企业级模型托管、安全部署等服务,快速实现 AI 技术商业化落地。
  • 个人与社区:开发者可在 Spaces 搭建 AI 演示应用,分享创意;新手可通过教程、社区交流快速入门 AI 开发。

四、商业模式

  • 开源免费:核心库(如 Transformers)、基础模型与数据集免费开放,降低开发者入门成本,吸引社区参与。
  • 付费增值:为企业提供定制化服务,包括私有模型托管、安全合规部署、技术支持等,满足企业级需求。

五、行业影响

Hugging Face 推动了 AI 技术的开源共享进程,让小团队与个人开发者也能高效使用前沿模型开展研发,同时其社区协作模式加速了 AI 技术迭代,成为连接科研与产业的重要桥梁,Meta、Google 等企业及众多研究机构均为其生态贡献力量。

Transformers简介

Transformers 是由 Hugging Face 开发并维护的一个开源 Python 库,专注于 自然语言处理(NLP) 和 多模态任务。它提供了对大量预训练模型的统一 API,使得研究人员和工程师能够快速加载、微调和部署先进的模型。用于文本、视觉、音频和多模态模型的最先进的机器学习模型的模型定义框架,可用于推理和训练。

github开源地址:github.com/huggingface…

官方文档:huggingface.co/docs/transf…

它支持:

  • 文本任务:文本分类、文本生成、翻译、问答、摘要、情感分析等。
  • 图像任务:图像分类、图文检索等。
  • 音频任务:语音识别、音频分类等。
  • 多模态任务:如图文结合的 CLIP 模型。
特点说明
统一易用的API无论背后是BERT、GPT还是其他任何模型,都提供from_pretrained()加载、pipeline()快速推理等一致接口。
庞大的模型库集成了数万个由社区和企业贡献的预训练模型,涵盖文本、视觉、音频等多模态任务。
框架无缝兼容全面支持PyTorch、TensorFlow和JAX,用户可按偏好选择。
强大的社区与工具链与Hugging Face Hub、Datasets、Tokenizers等工具深度集成,形成开发生态。

其发展历程可概括为:

image.png

特征

Transformers 提供使用最先进的预训练模型进行推理或训练所需的一切。其主要功能包括:

  • Pipeline:简单且优化的推理类,适用于许多机器学习任务,例如文本生成、图像分割、自动语音识别、文档问答等。
  • 训练器:一个综合性的训练器,支持混合精度、torch.compile 和 FlashAttention 等功能,用于 PyTorch 模型的训练和分布式训练。
  • 生成:使用大型语言模型 (LLM) 和视觉语言模型 (VLM) 快速生成文本,包括支持流式传输和多种解码策略。

魔塔&modelscope简介

ModelScope(魔搭社区)是 2022 年由阿里巴巴通义实验室(原达摩院)联合中国计算机学会(CCF)开源发展委员会发起的 AI 模型即服务(MaaS)开源平台,定位为中文友好的一站式模型全生命周期管理平台,覆盖模型探索、训练、微调、部署与社区协作,降低 AI 开发门槛,推动技术普惠化魔搭社区。

官方网站: www.modelscope.cn/

对应的开发库是modelscope,www.modelscope.cn/docs/


一、核心定位与背景

  • 发起方:阿里巴巴通义实验室 + CCF 开源发展委员会,2022 年 11 月正式发布,是国内领先的 AI 模型开源生态社区ModelScope。
  • 核心理念:“模型即服务(MaaS)”,提供从模型发现、推理、微调、部署到监控的全链路工具链,让 AI 应用开发更简单ModelScope。
  • 差异化优势:以中文为核心,适配国产算力,集成阿里生态资源,覆盖多模态与科学计算等前沿领域,兼顾开源共享与工业级落地魔搭社区。

二、核心功能与技术特点

  1. 丰富的多模态模型库
  • 覆盖 NLP、计算机视觉、语音、多模态、AI for Science 等领域,包含通义千问(Qwen)、BLIP-2、Wav2Vec2 等主流模型,支持 0.5B-110B 参数规模。
  • 中文模型占比高,适配中文 NLP 任务(如分词、语义理解、机器翻译),同时兼容国际主流模型,方便跨语言应用开发。
  • 提供 SOTA 模型与领域专用模型(如医疗影像、工业质检),满足通用与垂直场景需求魔搭社区。
  1. 一站式开发工具链
模块功能说明
模型加载一行代码调用预训练模型,支持 PyTorch/TensorFlow,适配本地与云端推理ModelScope
数据管理提供公开与阿里自研数据集,支持 Git 版本管理,适配模型训练与评测需求ModelScope
微调与训练提供低代码微调接口、分布式训练支持、混合精度训练,适配单 GPU / 多 GPU/TPU
部署能力支持云端 API、边缘部署、容器化输出,兼容 CPU/GPU,提供弹性伸缩与按需付费
评测监控内置 ModelEval 自动化评测框架,支持模型性能对比、版本管理与线上监控
  1. 分层 API 设计
  • 高阶 API(Pipeline) :封装模型调用全流程,适合快速验证任务,如文本生成、图像分类等,几行代码完成推理。
  • 中阶 API(Model/Tokenizer) :灵活加载模型与分词器,支持自定义输入处理与输出解析,适配复杂场景。
  • 低阶 API(底层引擎) :支持模型修改、自定义训练循环、量化优化(如 INT8),满足深度定制需求。
  1. 生态与社区支持
  • 社区协作:支持模型上传、版本管理、社区评价,开发者可共享模型并获取反馈。
  • 高校合作:与清华、北大等 20 余所高校联合开发课程,搭建 AI 教育实训平台,推动人才培养。
  • 企业适配:兼容国产芯片(如昇腾),提供阿里云算力支持,方便企业级应用快速落地。

三、与 Hugging Face 的对比

维度ModelScopeHugging Face
语言与生态中文友好,适配国产算力,集成阿里生态国际社区主导,模型多样性高,框架兼容性强
核心优势一站式 MaaS 服务,工业级部署支持,中文模型丰富模型数量庞大,社区活跃,第三方工具集成度高
适用场景中文 NLP、国产算力部署、企业级应用落地跨语言研究、快速原型验证、开源社区协作