上半年度工作进展汇报

路人与大师

2024-06-17 65 阅读4分钟

一、生成式语言模型调研

调研对象：
- ChatGLM系列：
  - ChatGLM1
  - ChatGLM2
  - ChatGLM3
- GLM4
- Qwen系列：
  - Qwen
  - Qwen1.5
  - Qwen2
- Baichuan
- LLaMA系列：
  - LLaMA2
  - LLaMA3
调研内容：
- 每个模型的架构、训练数据、训练方法和应用场景。
- 模型性能和生成质量的对比分析。

二、原始语料整理

语料来源与格式：
- HTML：从网络爬取的网页内容。
- PDF：包括研究论文、技术文档等。
- Excel：数据表格和统计资料。
- DOCX：各类文档和报告。
处理工具：
- lxml：用于解析和处理HTML文件。
- python-docx：用于读取和处理DOCX文件。
- pymupdf：用于处理PDF文件。
- paddleocr：用于OCR文字识别，提取图片中的文字。
- ppstruct：用于版面分析和表格识别。
富文本清洗流程：
- 提取和解析文本内容，去除无关信息。
- 保留文档的结构化信息，例如大纲标题和章节。

三、预训练数据集构建

数据处理方式：
- 对DOCX、PDF、HTML格式数据进行结构化解析，保留当前滑动窗口之前的各级大纲标题。
- 这样可以在预训练中保持上下文的逻辑连贯性。
数据规模和质量：
- 确保数据集覆盖多种领域和话题。
- 清洗后的数据进行去重和质量检查，确保没有重复和噪音数据。

四、生成式语言模型预训练

数据集构建：
- 使用ChatGPT、ChatGLM（智谱清言）、Qwen（通义千问）、Deepseek、Kimi等模型生成高质量的单轮和多轮对话数据。
- 特别关注航空领域的专业数据集，保证生成的文本符合专业领域的要求。
预训练方法：
- 采用大规模分布式训练，使用最新的优化算法和技术。
- 调整模型参数和训练策略，确保模型在生成文本的流畅性和准确性上达到最佳效果。

五、生成式语言模型微调

数据质量评估：
- 基于指令构建数据质量交叉评估数据集。
- 对不同数据源和模型生成的文本进行交叉评估，找出最佳的数据组合。
消融实验：
- 通过逐步去除或添加特定的数据和特征，评估其对模型性能的影响。
- 使用消融实验结果进行评分优化，找出对模型生成质量影响最大的因素。

六、生成式语言模型强化排序训练

训练目标：
- 进一步优化模型生成文本的排序能力，使其在实际应用中能够生成更符合人类偏好的回答。
训练方法：
- 使用强化学习方法，对模型生成的多种候选答案进行排序，选择最佳答案进行训练。
- 通过不断的迭代训练，提升模型的排序能力和回答质量。

七、实现民航垂直领域大模型

数据集构建：
- 收集民航领域的专业文献、技术资料、操作手册等，形成专用数据集。
- 数据格式包括但不限于HTML、PDF、Excel、DOCX等。
数据清洗和处理：
- 使用lxml解析HTML文件，提取有用信息。
- 使用python-docx解析DOCX文件，保留结构化信息。
- 使用pymupdf处理PDF文件，提取文本内容。
- 使用paddleocr识别图像文字，提取关键信息。
- 使用ppstruct进行版面分析和表格识别，提取结构化数据。
模型训练：
- 基于上述清洗后的数据集，进行初步的预训练。
- 针对民航领域的数据，进行微调训练，提升模型在该领域的专业性和准确性。
强化学习和排序优化：
- 采用强化学习方法，优化模型生成文本的排序能力。
- 对民航领域的问答进行排序优化，确保生成的回答符合领域专家的要求。

总结

上半年度的工作涵盖了生成式语言模型的全面调研、数据整理与清洗、预训练、微调以及强化训练等多个方面。同时，成功实现了一个民航垂直领域的大模型，为后续的应用开发和优化工作打下了坚实的基础。