书生大模型实战营第4期——基础篇1 书生大模型全链路开源体系

206 阅读2分钟

本文参考实战营提供的视频教程:ToolChain

af5f26f6cf8d4d1764e190213e684c2.png

1. 发展历程与技术特点

  • 2023.7.6:InternLM-7B 开源,率先免费商用发布全链条开源工具体系,包括数据收集、整理、标注、模型训练、微调、评测、基于模型的Agentrag搜索引擎及AI应用部署等全链条工具。
  • 2023.9.20:InternLM-20B 开源,开源工具链全线升级,形成了更为完善的工具体系。
  • 2024.1.17:InternLM2 开源,性能超越最新同量级开源模型。
  • 2024.7.4:InternLM2.5 开源,推理能力再创新标杆。

2. 训推工具体系

  • InternEvo:轻量级框架,支持大规模模型预训练和微调,无需大量依赖包,一套代码支持千卡预训练和单卡人类偏好对齐训练,实现极致的性能优化。
  • Xtuner:而 Xtuner 是一个高效微调框架,支持全参数微调和低成本微调
  • LMDeploy 合并:LMDeploy 提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务,合并后的工具体系支持从十亿到千亿参数语言模型的高效推理。

3. 2.5版本特点

  • 推理能力:InternLM2.5 在数学推理方面表现出色,其中20B大小模型和 GPT-4 对齐。
  • 上下文支持:支持长达 100 万的上下文窗口,在 LongBench 等长时序任务中表现领先。
  • 自主规划和搜索:InternLM2.5 支持从超过 100 个网页收集信息,完成复杂任务的能力。

4. 数据工具

  • MinerU:PDF等文档解析工具,用于数据预处理。
  • LabelLLM & Label U:LabelLLM专门用于LLM数据标注的工具;Label U 是轻量级标注工具,支持图片、音视频等多种数据标注,小巧且可以利用LLM预标注。

5. MindSearch AI搜索引擎

  • MindSearch:MindSearch是一个思索式开源搜索应用,它模拟人类的思维过程进行复杂信息搜集与整合。该工具结合了大规模语言模型(LLM)与搜索引擎的先进技术,通过多智能体框架,实现对上百个网页的自主信息搜集整理,并在短时间内给出综合回答

6. HuixiangDou 企业级知识库构建工具

  • HuixiangDou:HuixiangDou 是一个基于大语言模型(LLM)的技术助手,专门设计用于优化群聊场景下的技术交流体验。它采用了独特的预处理、拒答和响应三阶段 pipeline 设计,使得系统能够更智能地处理问题,提高回答的准确性和相关性。通过 chat_in_group 功能,HuixiangDou 能够有效地在群聊环境中工作,避免了常见的消息泛滥问题

7. OpenCompass 开源评测体系

OpenCompass 提供了对书生·浦语大模型在数十项评测中的评估,提供公平、开放和可复现的基准测试。