书生大模型全链路开源体系 - 第四期书生大模型实战营实验记录(基础岛-第1关)

81 阅读5分钟

我目前正在参加“书生大模型实战营”。这是一个旨在帮助学员掌握大模型开发和应用的实战课程。

为了更好地记录完成过程,我根据官方提供的教程文档提取了核心步骤,并去掉了详细的背景知识介绍和说明,这样后续一个手册查找起来会更加直观。

但建议大家在实际学习过程中还是多看看原文,因为原文档确实非常的详细和完整,方便了解每一步的具体原因和背后的原理,这样有助于更牢固地掌握知识,提高实战能力。

基础岛-第1关

本地环境:Win11。

原文:无

完成任务步骤记录

任务一:书生大模型全链路开源体系

目标:观看「本关卡视频」和「官网」、GitHub,了解书生大模型全链路开源开放体系。

完成所需时间:30分钟,本关卡主要是看视频学习了解。

观后整理


在参加书生大模型实战营的过程中,我对书生大模型的全链路开源开放体系有了深入的了解。以下是我在观看相关课程和资料后的感悟,希望能够帮助更多的开发者和研究者更好地理解这一生态系统。

书生·浦语开源体系
书生·浦语开源一周年发展历程

过去一年,书生·浦语在开源社区中取得了显著的进展。从最初的模型发布到现在的全链条开源,书生·浦语不仅在技术上不断进步,还在社区建设上取得了重大突破。这一年的时间里,书生·浦语发布了多个版本的模型,每个版本都在性能和功能上有所提升,为开发者提供了更多的选择和灵活性。

最新模型介绍:书生·浦语2.5

最新的书生·浦语2.5模型在多个方面进行了优化和改进。

  • 推理能力领先,相对InternLM2性能提升20%
  • 支持100万字上下文
  • 自主规划和搜索完成复杂任务

书生·浦语开源模型谱系

书生·浦语的开源模型谱系非常丰富,涵盖了从1.8B到102B的多种模型。这些模型不仅在性能上各有特点,还在应用场景上有所不同,满足了不同用户的需求。例如,小规模模型适用于端侧、学习,而大规模模型则适用于高性能要求的特殊场景。

全链条开源,与社区生态无缝连接

书生·浦语的全链条开源不仅仅是模型本身的开源,还包括了从数据准备、模型预训练、微调、评测、部署到应用的各个环节,同时,还支持各种开源社区的集成与对接。

具体成果,数据说话。

重要开源产品介绍
预训练:InternEvo

InternEvo 是书生·浦语的一个模型预训练工具,专注于大规模数据的高效训练。

  • 大规模训练
  • 极致性能优化
  • 软硬件生态
  • 全场景训练

微调:XTuner

XTuner 是一个强大的微调工具,可以帮助开发者针对特定任务对模型进行微调。

  • 适配多种生态
  • 适配多种硬件

评测体系:OpenCompass

OpenCompass 是一个全面的模型评测体系,涵盖了多个评测指标和评测任务,达到了“工具-基准-榜单 三位一体”。

  • 是大模型评测国标主要参与单位
  • Meta官方推荐唯一国产大模型评测体系
  • 开源社区最完善的评测体系之一(100+评测集+50万+题目)

部署工具:LMDeploy

LMDeploy 是一个高效的模型部署工具,支持多种部署方式和运行环境。

  • 高效的推理
  • 可靠的量化
  • 卓越的兼容性
  • 便捷的服务
  • 有状态的推理

智能体:Lagent

Lagent 是一个智能代理框架,可以帮助开发者构建和管理复杂的智能体系统。

  • 支持多种类型的智能体能力
  • 支持多种大语言模型
  • 简单一拓展,支持丰富的工具

思维链搜索工具:MindSearch

MindSearch 是一个强大的思维链搜索工具,可以帮助开发者快速查找和理解复杂的知识和信息。

  • 复杂查询处理
  • 并行信息搜索
  • 分层检索策略
  • 性能提升

企业级知识库构建工具:HuixiangDou

HuixiangDou 是一个企业级知识库构建工具,可以帮助企业快速构建和管理大规模的知识库。该工具提供了丰富的知识管理功能和协作机制,使得知识库的建设和维护更加高效和便捷。

  • 三阶段 Pipeline (前处理、拒答、响应),提高相应准确率和安全性
  • 打通微信和飞书群聊天,适合国内知识问答场景
  • 支持各种硬件配置安装,安装部署限制条件少
  • 适配性强,兼容多个 LLM 和 API
  • 傻瓜操作,安装和配置方便

总结

书生·浦语的全链条开源体系不仅涵盖了模型的各个方面,还与社区生态紧密相连。通过开源社区的支持和贡献,书生·浦语不断完善和发展,形成了一个开放、活跃的生态系统。无论是新手开发者还是资深研究者,都可以在这个生态系统中找到适合自己需求的工具和资源,共同推动大模型技术的发展和应用。