[241130] Hugging Face 发布 SmolVLM 开源 AI 模型 | 教育部发布通知:加强中小学人工智能教育

223 阅读3分钟

Hugging Face 发布 SmolVLM 开源 AI 模型

SmolVLM,一个 20 亿参数的视觉语言模型 (VLM),以其极低的内存占用而著称。
SmolVLM 小巧、快速、内存高效,并且完全开源。所有模型检查点、VLM 数据集、训练方法和工具均在 Apache 2.0 许可下发布。

核心亮点:

  • 小巧高效:
    SmolVLM 仅有 20 亿参数,内存占用远低于同类模型,可在笔记本电脑等设备上高效运行。
  • 开源开放:
    所有模型、数据集、训练代码和工具均开源,方便用户使用和定制。
  • 高性能:
    在多个基准测试中表现出色,包括多模态理解、视觉问答和数学推理。
  • 支持视频理解:
    初步具备视频分析能力,在 CinePile 基准测试中取得了不错的成绩。
  • 易于集成:
    与 Transformers 库无缝集成,方便加载和使用。
  • 可微调:
    提供微调脚本和示例,支持 LoRA、QLoRA 等高效微调方法,甚至可以在 Colab 上进行微调。
  • 支持 TRL:
    可使用 TRL 进行偏好优化,进一步提升模型性能。

模型能力:

SmolVLM 能够理解图像和文本内容,并进行多模态推理。例如,可以根据图像提供旅行建议、回答图表中的问题、提取发票信息等。

架构:

SmolVLM 基于 Idefics3 架构,并进行了以下改进:

  • 使用 SmolLM2 1.7B 作为语言主干。
  • 更 aggressively 地压缩视觉信息。
  • 使用 384x384 的图像块。
  • 使用形状优化的 SigLIP 视觉主干。

性能:

SmolVLM 在内存占用和吞吐量方面表现出色,显著优于其他同类模型。

训练细节:

  • 使用与 Idefics3 相同的数据集,包括 The Cauldron 和 Docmatix。
  • 扩展了 SmolLM2 的上下文窗口至 16k tokens。
  • 通过多基准测试评估选择最佳检查点。

微调:

提供微调脚本,支持 LoRA、QLoRA 和全量微调。并集成了 TRL,方便进行偏好优化。

来源:
huggingface.co/blog/smolvl…

教育部发布通知:加强中小学人工智能教育

近日,教育部办公厅发布了《关于加强中小学人工智能教育的通知》(教基厅函〔2024〕32号),旨在贯彻党的二十大精神,培养适应新时代要求的创新型人才,推动中小学人工智能教育发展。

通知的核心内容包括:

一、总体要求:

  1. 坚持立德树人,把准方向;
  2. 坚持以人为本,全面发展;
  3. 坚持激发兴趣,鼓励探索;
  4. 坚持统筹谋划,稳步推进。

二、六大主要任务:

  1. 构建系统化课程体系;
  2. 实施常态化教学与评价;
  3. 开发普适化教学资源;
  4. 建设泛在化教学环境;
  5. 推动规模化教师供给;
  6. 组织多样化交流活动。

三、保障措施:

  1. 加强组织领导;
  2. 加强经费保障;
  3. 做好城乡统筹;
  4. 加强评价引领。

来源:
www.zhinengxiehui.com/ai/39289.ht…




更多内容请查阅 : blog-241130


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法