垂直领域民航生成式模型构建与优化一、报告背景随着人工智能技术的不断进步，自然语言处理（NLP）领域取得了显著的成就。本

一、报告背景

随着人工智能技术的不断进步，自然语言处理（NLP）领域取得了显著的成就。本报告旨在构建一个垂直领域的民航生成式模型，并探索不同训练模式和模型选型对模型性能的影响。

二、数据集构建

数据来源：
- 原始网页：收集了12000篇原始网页数据，涵盖民航领域的相关信息。
- PDF解析结果：解析了6000篇PDF文件，这些文件可能包含民航领域的专业知识和信息。
数据切分：
- 基于滑动窗口的切分方法，将数据集切分为不同大小的token（文本单元），包括2K token、4K token和8K token。
文本生成对数据集构建：
- 基于原始网页与PDF解析结果，采用指令方式构建文本生成对数据集，以提高模型对民航领域的理解和生成能力。

三、训练模式与模型选型

训练模式：
- 原始语聊训练模式：直接使用原始文本数据进行训练。
- 滑动窗口训练模式：将文本数据分割成更小的窗口，并使用这些窗口进行训练。
模型选型：
- QWEN 1.5 7B：选用QWEN 1.5 7B模型进行训练。QWEN是一种基于Transformer的模型，1.5表示模型的版本，7B表示模型包含大约70亿个参数。
- QWEN 1.5 MoE 7B：基于原始网页与PDF解析结果，使用QWEN 1.5 MoE 7B模型进行数据集质量优化。QWEN 1.5 MoE 7B模型是一种多任务学习模型，能够提高模型的泛化能力和性能。

四、实验与分析

五、结论与展望

综上所述，本报告构建了一个垂直领域的民航生成式模型，并探索了不同训练模式和模型选型对模型性能的影响。实验结果表明，基于原始网页与PDF解析结果共同采用指令方式构建文本生成对数据集，可以提高模型的理解和生成能力。未来将继续优化模型性能，以推动民航领域的发展。