一、报告背景
随着人工智能技术的不断进步,自然语言处理(NLP)领域取得了显著的成就。本报告旨在构建一个垂直领域的民航生成式模型,并探索不同训练模式和模型选型对模型性能的影响。
二、数据集构建
- 数据来源:
- 原始网页:收集了12000篇原始网页数据,涵盖民航领域的相关信息。
- PDF解析结果:解析了6000篇PDF文件,这些文件可能包含民航领域的专业知识和信息。
- 数据切分:
- 基于滑动窗口的切分方法,将数据集切分为不同大小的token(文本单元),包括2K token、4K token和8K token。
- 文本生成对数据集构建:
- 基于原始网页与PDF解析结果,采用指令方式构建文本生成对数据集,以提高模型对民航领域的理解和生成能力。
三、训练模式与模型选型
- 训练模式:
- 原始语聊训练模式:直接使用原始文本数据进行训练。
- 滑动窗口训练模式:将文本数据分割成更小的窗口,并使用这些窗口进行训练。
- 模型选型:
- QWEN 1.5 7B:选用QWEN 1.5 7B模型进行训练。QWEN是一种基于Transformer的模型,1.5表示模型的版本,7B表示模型包含大约70亿个参数。
- QWEN 1.5 MoE 7B:基于原始网页与PDF解析结果,使用QWEN 1.5 MoE 7B模型进行数据集质量优化。QWEN 1.5 MoE 7B模型是一种多任务学习模型,能够提高模型的泛化能力和性能。
四、实验与分析
- 不同切分方法对模型性能的影响:
- 对比2K token、4K token和8K token切分数据集下的模型性能,分析不同切分方法对模型训练和应用的影响。
- 指令方式构建文本生成对数据集的效果:
- 评估基于原始网页与PDF解析结果共同采用指令方式构建文本生成对数据集的效果,以提高模型的理解和生成能力。
五、结论与展望
- 构建垂直领域民航生成式模型对于推动民航领域的发展具有重要意义。
- 不同训练模式和模型选型对模型性能有显著影响,需要根据具体应用场景进行选择和优化。
- 基于原始网页与PDF解析结果共同采用指令方式构建文本生成对数据集,可以提高模型对民航领域的理解和生成能力。
- 未来将继续探索更多高效的数据切分方法、训练模式和模型选型,以进一步提高模型性能和应用范围。
综上所述,本报告构建了一个垂直领域的民航生成式模型,并探索了不同训练模式和模型选型对模型性能的影响。实验结果表明,基于原始网页与PDF解析结果共同采用指令方式构建文本生成对数据集,可以提高模型的理解和生成能力。未来将继续优化模型性能,以推动民航领域的发展。