书生大模型实战营第4期——基础篇1 书生大模型全链路开源体系

2024-11-22 228 阅读2分钟

本文参考实战营提供的视频教程：ToolChain

1. 发展历程与技术特点

2023.7.6：InternLM-7B 开源，率先免费商用发布全链条开源工具体系，包括数据收集、整理、标注、模型训练、微调、评测、基于模型的Agentrag搜索引擎及AI应用部署等全链条工具。
2023.9.20：InternLM-20B 开源，开源工具链全线升级，形成了更为完善的工具体系。
2024.1.17：InternLM2 开源，性能超越最新同量级开源模型。
2024.7.4：InternLM2.5 开源，推理能力再创新标杆。

2. 训推工具体系

InternEvo：轻量级框架，支持大规模模型预训练和微调，无需大量依赖包，一套代码支持千卡预训练和单卡人类偏好对齐训练，实现极致的性能优化。
Xtuner：而 Xtuner 是一个高效微调框架，支持全参数微调和低成本微调
LMDeploy 合并：LMDeploy 提供大模型在 GPU 上部署的全流程解决方案，包括模型轻量化、推理和服务，合并后的工具体系支持从十亿到千亿参数语言模型的高效推理。

3. 2.5版本特点

推理能力：InternLM2.5 在数学推理方面表现出色，其中20B大小模型和 GPT-4 对齐。
上下文支持：支持长达 100 万的上下文窗口，在 LongBench 等长时序任务中表现领先。
自主规划和搜索：InternLM2.5 支持从超过 100 个网页收集信息，完成复杂任务的能力。

4. 数据工具

MinerU：PDF等文档解析工具，用于数据预处理。
LabelLLM & Label U：LabelLLM专门用于LLM数据标注的工具；Label U 是轻量级标注工具，支持图片、音视频等多种数据标注，小巧且可以利用LLM预标注。

5. MindSearch AI搜索引擎

MindSearch：MindSearch是一个思索式开源搜索应用，它模拟人类的思维过程进行复杂信息搜集与整合。该工具结合了大规模语言模型（LLM）与搜索引擎的先进技术，通过多智能体框架，实现对上百个网页的自主信息搜集整理，并在短时间内给出综合回答

6. HuixiangDou 企业级知识库构建工具

HuixiangDou：HuixiangDou 是一个基于大语言模型（LLM）的技术助手，专门设计用于优化群聊场景下的技术交流体验。它采用了独特的预处理、拒答和响应三阶段 pipeline 设计，使得系统能够更智能地处理问题，提高回答的准确性和相关性。通过 chat_in_group 功能，HuixiangDou 能够有效地在群聊环境中工作，避免了常见的消息泛滥问题

7. OpenCompass 开源评测体系

OpenCompass 提供了对书生·浦语大模型在数十项评测中的评估，提供公平、开放和可复现的基准测试。