我目前正在参加“书生大模型实战营”。这是一个旨在帮助学员掌握大模型开发和应用的实战课程。
为了更好地记录完成过程,我根据官方提供的教程文档提取了核心步骤,并去掉了详细的背景知识介绍和说明,这样后续一个手册查找起来会更加直观。
但建议大家在实际学习过程中还是多看看原文,因为原文档确实非常的详细和完整,方便了解每一步的具体原因和背后的原理,这样有助于更牢固地掌握知识,提高实战能力。
基础岛-第1关
本地环境:Win11。
原文:无
完成任务步骤记录
任务一:书生大模型全链路开源体系
目标:观看「本关卡视频」和「官网」、GitHub,了解书生大模型全链路开源开放体系。
完成所需时间:30分钟,本关卡主要是看视频学习了解。
观后整理:
在参加书生大模型实战营的过程中,我对书生大模型的全链路开源开放体系有了深入的了解。以下是我在观看相关课程和资料后的感悟,希望能够帮助更多的开发者和研究者更好地理解这一生态系统。
书生·浦语开源体系
书生·浦语开源一周年发展历程
过去一年,书生·浦语在开源社区中取得了显著的进展。从最初的模型发布到现在的全链条开源,书生·浦语不仅在技术上不断进步,还在社区建设上取得了重大突破。这一年的时间里,书生·浦语发布了多个版本的模型,每个版本都在性能和功能上有所提升,为开发者提供了更多的选择和灵活性。
最新模型介绍:书生·浦语2.5
最新的书生·浦语2.5模型在多个方面进行了优化和改进。
- 推理能力领先,相对InternLM2性能提升20%
- 支持100万字上下文
- 自主规划和搜索完成复杂任务
书生·浦语开源模型谱系
书生·浦语的开源模型谱系非常丰富,涵盖了从1.8B到102B的多种模型。这些模型不仅在性能上各有特点,还在应用场景上有所不同,满足了不同用户的需求。例如,小规模模型适用于端侧、学习,而大规模模型则适用于高性能要求的特殊场景。
全链条开源,与社区生态无缝连接
书生·浦语的全链条开源不仅仅是模型本身的开源,还包括了从数据准备、模型预训练、微调、评测、部署到应用的各个环节,同时,还支持各种开源社区的集成与对接。
具体成果,数据说话。
重要开源产品介绍
预训练:InternEvo
InternEvo 是书生·浦语的一个模型预训练工具,专注于大规模数据的高效训练。
- 大规模训练
- 极致性能优化
- 软硬件生态
- 全场景训练
微调:XTuner
XTuner 是一个强大的微调工具,可以帮助开发者针对特定任务对模型进行微调。
- 适配多种生态
- 适配多种硬件
评测体系:OpenCompass
OpenCompass 是一个全面的模型评测体系,涵盖了多个评测指标和评测任务,达到了“工具-基准-榜单 三位一体”。
- 是大模型评测国标主要参与单位
- Meta官方推荐唯一国产大模型评测体系
- 开源社区最完善的评测体系之一(100+评测集+50万+题目)
部署工具:LMDeploy
LMDeploy 是一个高效的模型部署工具,支持多种部署方式和运行环境。
- 高效的推理
- 可靠的量化
- 卓越的兼容性
- 便捷的服务
- 有状态的推理
智能体:Lagent
Lagent 是一个智能代理框架,可以帮助开发者构建和管理复杂的智能体系统。
- 支持多种类型的智能体能力
- 支持多种大语言模型
- 简单一拓展,支持丰富的工具
思维链搜索工具:MindSearch
MindSearch 是一个强大的思维链搜索工具,可以帮助开发者快速查找和理解复杂的知识和信息。
- 复杂查询处理
- 并行信息搜索
- 分层检索策略
- 性能提升
企业级知识库构建工具:HuixiangDou
HuixiangDou 是一个企业级知识库构建工具,可以帮助企业快速构建和管理大规模的知识库。该工具提供了丰富的知识管理功能和协作机制,使得知识库的建设和维护更加高效和便捷。
- 三阶段 Pipeline (前处理、拒答、响应),提高相应准确率和安全性
- 打通微信和飞书群聊天,适合国内知识问答场景
- 支持各种硬件配置安装,安装部署限制条件少
- 适配性强,兼容多个 LLM 和 API
- 傻瓜操作,安装和配置方便
总结
书生·浦语的全链条开源体系不仅涵盖了模型的各个方面,还与社区生态紧密相连。通过开源社区的支持和贡献,书生·浦语不断完善和发展,形成了一个开放、活跃的生态系统。无论是新手开发者还是资深研究者,都可以在这个生态系统中找到适合自己需求的工具和资源,共同推动大模型技术的发展和应用。