这次的专题是来自商汤的大模型全栈开发框架。 当然之前的介绍的MMdetection也是他们开发的。那么这次它们联合上海人工智能实验室带来的大模型全栈开发框架,囊括微调、agent、评测、本地部署等等。同时还有数据集发布. 具体的实验地址可以访问[tutorial]参看详细的内容,这里对视频以及文档进行总结。
1. 开始之前
当你决定要使用一个就大模型的时候,你应该首先过一下下方的流程图,来寻找适合自己的方案。
graph TB;
A(确定规模) --> B{是否复杂};
B --是--> D{算例是否足够};
B -- 否--> G{构建智能体};
D --是--> F(续参/全参数微调);
D --否--> E(部分微调/LORA);
E --> G;
F -->G;
G --是--> H(构建智能体);
G --否--> C(模型的测评);
H --> C;
C --> I(部署);
根据具体的方案不同,那么相应的策略自然不同。有些时候对应于具体的项目还要分析是否能够使用,规则筛选一遍,或者使用机器学习来直接取代大模型。这里面的考量主要由于大模型的训练、微调、部署需要消耗海量的算力与能源,这些要求在生产环境中最后会以不断流失的成本为代价。
当你确定最后使用大模型来加持或者开辟自己的项目,那么这时候可以参考使用InternLM提供的全框架来加速自己的项目。
2. 模型的简介(-2024/01/05)
- 书生-聊天模型-InternLM/
- 书生-多模态模型-InternLM-XComposer
3. 大模型体系
具体的使用要参考所在目录,这里也仅仅起到一个索引作用。后面的章节会对这里面的工具进行简单介绍
- 数据集-OpenDataLab
- 训练框架 - 不包含
- 评测系统-opencompass
- Langchian-(支持)
- 微调-xtuner
- Agent智能体-lagent
- 增强Agent框架-agentlego
- 部署-lmdeploy
后面会陆续更新以上内容