上半年度工作进展汇报

65 阅读4分钟

一、生成式语言模型调研

  1. 调研对象

    • ChatGLM系列
      • ChatGLM1
      • ChatGLM2
      • ChatGLM3
    • GLM4
    • Qwen系列
      • Qwen
      • Qwen1.5
      • Qwen2
    • Baichuan
    • LLaMA系列
      • LLaMA2
      • LLaMA3
  2. 调研内容

    • 每个模型的架构、训练数据、训练方法和应用场景。
    • 模型性能和生成质量的对比分析。

二、原始语料整理

  1. 语料来源与格式

    • HTML:从网络爬取的网页内容。
    • PDF:包括研究论文、技术文档等。
    • Excel:数据表格和统计资料。
    • DOCX:各类文档和报告。
  2. 处理工具

    • lxml:用于解析和处理HTML文件。
    • python-docx:用于读取和处理DOCX文件。
    • pymupdf:用于处理PDF文件。
    • paddleocr:用于OCR文字识别,提取图片中的文字。
    • ppstruct:用于版面分析和表格识别。
  3. 富文本清洗流程

    • 提取和解析文本内容,去除无关信息。
    • 保留文档的结构化信息,例如大纲标题和章节。

三、预训练数据集构建

  1. 数据处理方式

    • 对DOCX、PDF、HTML格式数据进行结构化解析,保留当前滑动窗口之前的各级大纲标题。
    • 这样可以在预训练中保持上下文的逻辑连贯性。
  2. 数据规模和质量

    • 确保数据集覆盖多种领域和话题。
    • 清洗后的数据进行去重和质量检查,确保没有重复和噪音数据。

四、生成式语言模型预训练

  1. 数据集构建

    • 使用ChatGPT、ChatGLM(智谱清言)、Qwen(通义千问)、Deepseek、Kimi等模型生成高质量的单轮和多轮对话数据。
    • 特别关注航空领域的专业数据集,保证生成的文本符合专业领域的要求。
  2. 预训练方法

    • 采用大规模分布式训练,使用最新的优化算法和技术。
    • 调整模型参数和训练策略,确保模型在生成文本的流畅性和准确性上达到最佳效果。

五、生成式语言模型微调

  1. 数据质量评估

    • 基于指令构建数据质量交叉评估数据集。
    • 对不同数据源和模型生成的文本进行交叉评估,找出最佳的数据组合。
  2. 消融实验

    • 通过逐步去除或添加特定的数据和特征,评估其对模型性能的影响。
    • 使用消融实验结果进行评分优化,找出对模型生成质量影响最大的因素。

六、生成式语言模型强化排序训练

  1. 训练目标

    • 进一步优化模型生成文本的排序能力,使其在实际应用中能够生成更符合人类偏好的回答。
  2. 训练方法

    • 使用强化学习方法,对模型生成的多种候选答案进行排序,选择最佳答案进行训练。
    • 通过不断的迭代训练,提升模型的排序能力和回答质量。

七、实现民航垂直领域大模型

  1. 数据集构建

    • 收集民航领域的专业文献、技术资料、操作手册等,形成专用数据集。
    • 数据格式包括但不限于HTML、PDF、Excel、DOCX等。
  2. 数据清洗和处理

    • 使用lxml解析HTML文件,提取有用信息。
    • 使用python-docx解析DOCX文件,保留结构化信息。
    • 使用pymupdf处理PDF文件,提取文本内容。
    • 使用paddleocr识别图像文字,提取关键信息。
    • 使用ppstruct进行版面分析和表格识别,提取结构化数据。
  3. 模型训练

    • 基于上述清洗后的数据集,进行初步的预训练。
    • 针对民航领域的数据,进行微调训练,提升模型在该领域的专业性和准确性。
  4. 强化学习和排序优化

    • 采用强化学习方法,优化模型生成文本的排序能力。
    • 对民航领域的问答进行排序优化,确保生成的回答符合领域专家的要求。

总结

上半年度的工作涵盖了生成式语言模型的全面调研、数据整理与清洗、预训练、微调以及强化训练等多个方面。同时,成功实现了一个民航垂直领域的大模型,为后续的应用开发和优化工作打下了坚实的基础。