本文参考实战营提供的视频教程:ToolChain
1. 发展历程与技术特点
- 2023.7.6:InternLM-7B 开源,率先免费商用发布全链条开源工具体系,包括数据收集、整理、标注、模型训练、微调、评测、基于模型的Agentrag搜索引擎及AI应用部署等全链条工具。
- 2023.9.20:InternLM-20B 开源,开源工具链全线升级,形成了更为完善的工具体系。
- 2024.1.17:InternLM2 开源,性能超越最新同量级开源模型。
- 2024.7.4:InternLM2.5 开源,推理能力再创新标杆。
2. 训推工具体系
- InternEvo:轻量级框架,支持大规模模型预训练和微调,无需大量依赖包,一套代码支持千卡预训练和单卡人类偏好对齐训练,实现极致的性能优化。
- Xtuner:而 Xtuner 是一个高效微调框架,支持全参数微调和低成本微调
- LMDeploy 合并:LMDeploy 提供大模型在 GPU 上部署的全流程解决方案,包括模型轻量化、推理和服务,合并后的工具体系支持从十亿到千亿参数语言模型的高效推理。
3. 2.5版本特点
- 推理能力:InternLM2.5 在数学推理方面表现出色,其中20B大小模型和 GPT-4 对齐。
- 上下文支持:支持长达 100 万的上下文窗口,在 LongBench 等长时序任务中表现领先。
- 自主规划和搜索:InternLM2.5 支持从超过 100 个网页收集信息,完成复杂任务的能力。
4. 数据工具
- MinerU:PDF等文档解析工具,用于数据预处理。
- LabelLLM & Label U:LabelLLM专门用于LLM数据标注的工具;Label U 是轻量级标注工具,支持图片、音视频等多种数据标注,小巧且可以利用LLM预标注。
5. MindSearch AI搜索引擎
- MindSearch:MindSearch是一个思索式开源搜索应用,它模拟人类的思维过程进行复杂信息搜集与整合。该工具结合了大规模语言模型(LLM)与搜索引擎的先进技术,通过多智能体框架,实现对上百个网页的自主信息搜集整理,并在短时间内给出综合回答
6. HuixiangDou 企业级知识库构建工具
- HuixiangDou:HuixiangDou 是一个基于大语言模型(LLM)的技术助手,专门设计用于优化群聊场景下的技术交流体验。它采用了独特的预处理、拒答和响应三阶段 pipeline 设计,使得系统能够更智能地处理问题,提高回答的准确性和相关性。通过
chat_in_group功能,HuixiangDou 能够有效地在群聊环境中工作,避免了常见的消息泛滥问题
7. OpenCompass 开源评测体系
OpenCompass 提供了对书生·浦语大模型在数十项评测中的评估,提供公平、开放和可复现的基准测试。