一、生成式语言模型调研
-
调研对象:
- ChatGLM系列:
- ChatGLM1
- ChatGLM2
- ChatGLM3
- GLM4
- Qwen系列:
- Qwen
- Qwen1.5
- Qwen2
- Baichuan
- LLaMA系列:
- LLaMA2
- LLaMA3
- ChatGLM系列:
-
调研内容:
- 每个模型的架构、训练数据、训练方法和应用场景。
- 模型性能和生成质量的对比分析。
二、原始语料整理
-
语料来源与格式:
- HTML:从网络爬取的网页内容。
- PDF:包括研究论文、技术文档等。
- Excel:数据表格和统计资料。
- DOCX:各类文档和报告。
-
处理工具:
- lxml:用于解析和处理HTML文件。
- python-docx:用于读取和处理DOCX文件。
- pymupdf:用于处理PDF文件。
- paddleocr:用于OCR文字识别,提取图片中的文字。
- ppstruct:用于版面分析和表格识别。
-
富文本清洗流程:
- 提取和解析文本内容,去除无关信息。
- 保留文档的结构化信息,例如大纲标题和章节。
三、预训练数据集构建
-
数据处理方式:
- 对DOCX、PDF、HTML格式数据进行结构化解析,保留当前滑动窗口之前的各级大纲标题。
- 这样可以在预训练中保持上下文的逻辑连贯性。
-
数据规模和质量:
- 确保数据集覆盖多种领域和话题。
- 清洗后的数据进行去重和质量检查,确保没有重复和噪音数据。
四、生成式语言模型预训练
-
数据集构建:
- 使用ChatGPT、ChatGLM(智谱清言)、Qwen(通义千问)、Deepseek、Kimi等模型生成高质量的单轮和多轮对话数据。
- 特别关注航空领域的专业数据集,保证生成的文本符合专业领域的要求。
-
预训练方法:
- 采用大规模分布式训练,使用最新的优化算法和技术。
- 调整模型参数和训练策略,确保模型在生成文本的流畅性和准确性上达到最佳效果。
五、生成式语言模型微调
-
数据质量评估:
- 基于指令构建数据质量交叉评估数据集。
- 对不同数据源和模型生成的文本进行交叉评估,找出最佳的数据组合。
-
消融实验:
- 通过逐步去除或添加特定的数据和特征,评估其对模型性能的影响。
- 使用消融实验结果进行评分优化,找出对模型生成质量影响最大的因素。
六、生成式语言模型强化排序训练
-
训练目标:
- 进一步优化模型生成文本的排序能力,使其在实际应用中能够生成更符合人类偏好的回答。
-
训练方法:
- 使用强化学习方法,对模型生成的多种候选答案进行排序,选择最佳答案进行训练。
- 通过不断的迭代训练,提升模型的排序能力和回答质量。
七、实现民航垂直领域大模型
-
数据集构建:
- 收集民航领域的专业文献、技术资料、操作手册等,形成专用数据集。
- 数据格式包括但不限于HTML、PDF、Excel、DOCX等。
-
数据清洗和处理:
- 使用lxml解析HTML文件,提取有用信息。
- 使用python-docx解析DOCX文件,保留结构化信息。
- 使用pymupdf处理PDF文件,提取文本内容。
- 使用paddleocr识别图像文字,提取关键信息。
- 使用ppstruct进行版面分析和表格识别,提取结构化数据。
-
模型训练:
- 基于上述清洗后的数据集,进行初步的预训练。
- 针对民航领域的数据,进行微调训练,提升模型在该领域的专业性和准确性。
-
强化学习和排序优化:
- 采用强化学习方法,优化模型生成文本的排序能力。
- 对民航领域的问答进行排序优化,确保生成的回答符合领域专家的要求。
总结
上半年度的工作涵盖了生成式语言模型的全面调研、数据整理与清洗、预训练、微调以及强化训练等多个方面。同时,成功实现了一个民航垂直领域的大模型,为后续的应用开发和优化工作打下了坚实的基础。