GPT开源大模型原理及本地部署调优

495 阅读5分钟

1 GPT模型的核心特点

预训练与微调:GPT模型首先在大规模的文本数据集上进行预训练,学习语言的通用式和结构。预训练完成后,模型可以通过微调(fine-tuning)的方式适应特定的任务,如文本分类、问答、文本生成等。

变换器架构:GPT使用了变换器(Transformer)架构,这是一种基于自注意力机制(Self-Attention Mechanism)的神经网络结构,能够捕捉文本中的长距离依赖关系。与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)相比,变换器在处理序列数据方面更加高效和强大生成式模型:GPT是一个生成式模型,意味着它不仅能够理解语言,还能够生成连贯、有意义的文本。这使得GPT在文本创作、对话系统和其他需要文本生成能力的应用中表现出色。

大规模参数:GPT模型拥有大量的参数,例如GPT-3模型拥有1750亿个参数,这使得它能够学习和存储大量的知识和信息,从而在各种任务上取得优异的性能。

2 GPT原理

大模型局限性:没有记忆能力 训练成本巨大 不具备推理能力

模拟国内地址: aichatos--chat18.aichatos58.com/

GPT接口费用: openai.com/api/pricing

3 提示工程中文指南(prompt)

www.promptingguide.ai/zh

ChatGPT结构化提示词 不是所有的大模型都支持 kimi和gpt可以 直接问大模型就行

Role:<name>:指定角色会让 GPT 聚焦在对应领域进行信息输出
## Profileauthor/version/description:Credit 和迭代版本记录
## Goals: -句话描述 Prompt 目标,让 GPT Attention 聚焦起来
梁泽运
## Constrains: 描述限制条件,其实是在帮 GPT 进行剪枝,减少不必要分支的计算
## Skills: 描述技能项,强化对应领域的信息权重
## Workflow: 重点中的重点,你希望 Prompt 按什么方式来对话和输出
# Initialization: 冷启动时的对白,也是一个强调需注意重点的机会

4 AI工具集

  1. ai-bot.cn

  2. 文心一言

文心一言工具集-插件 收费了

支持表格数据格式

根据上下文触发不同的知识库 office知识库 python知识库

image-20241105153209758

文本格式数据分析

直接问 我怎么给你发送表格数据

绘制柱状图提示词--提示词+数据 请把下面的数据生成柱状图,年份为横轴,录取率为纵轴。年份|热门学校本科录取率【热门学校研究生录取率普通学校本科录取率普通学校研究生录取率

2018|185%|78%|72%|65% 2019|87.5%|81.5%|75.5%|68.5% 2022190.2%194.2%198.2%191.2% 2021192.1%|86.1%|80.1%|73.1%|

image-20241105153442057

5 应用

大模型写简历---hr大模型筛查简历

供应链 供应商风险要素分析 自动机器人引导车辆

百图生科: 生物医疗中 模拟药物和蛋白质相和

6 开源大模型-每个算法背后都有论文

  1. 法国)在线大模型: build.nvidia.com/explore/dis…

  2. llama

  1. 比亚迪github.com/xai-org/gro…
  2. ChatGLM: github.com/THUDM/ChatG…

大模型本地部署+显卡 租服务器 显卡 GPU 显卡 驱动

拉下来 本地就可以运行大模型 需要显卡

2000块 40g显存 大模型训练加速卡 (带gpu的 不需要显卡)

创业公司(很多代码都有问题): 大模型拉下来+web页面=大模型平台

image-20241105165637178

有用的: 参数调优

大模型: 预测类

image-20241105164051852

image-20241105164125443

7. 大模型微调流程

1.数据准备: 选择与任务相关的数据集。 对数据进行预处理,包括清洗、分词、编码等,

2.选择基础模型: 选择一个预训练好的大语言模型,如BERT、GPT-3等

3.设置微调参数: 设定学习率、训练轮次(历元)、(批次大小)等超批处理大小参数。根据需要设定其他超参数,如权重衰减、梯度剪切等。

4.微调流程: 加载预训练的模型和权重。 根据任务需求对模型进行必要的修改,如更改输出层。 选择合适的损失函数和优化器。 包括前向传播、损失计算、反向传播和权重更新,使用选定的数据集进行微调训练,

image-20241105164547139

8 举例:lora 模型调优

LoRA(Low-Rank Adaptation)通过引入低秩矩阵分解,在减少计算资源和存储需求的同时,保持了预训练模型的初始性能,稳定了微调过程并降低了存储和部署成本。它特别适用于大规模模型的微调,在资源有限的环境中具有显著的优势

image-20241105164850268

微调旁路 优化 找到未知数 输入已知 输出已知 怎么喂模型

image-20241105165118783

下面这个是微调框架 上面都不用调 直接用这个 封装更好 image-20241105165206383

9 大模型RAG-直接抽取答案

检索增强生成(RetrievalAugmented Generation),简称 RAG.

RAG旨在弥补大模型知识局限性、幻觉问题和数据安全性的不足

它通过向量搜索从私域数据库中检索相关信息,结合问题生成提示,使模型能提供准确答案。RAG=检索技术+LLM 提示。

例如,我们向 LLM 提问一个问题(answer),RAG 从各种数据源检索相关的信息,并将检索到的信息和问题(answer)注入到 LLM 提示中,LLM 最后给出答案。

10 数据处理

开源数据集:www.modelscope.cn

数据脱敏工具

向量化数据库: milvus.io/docs/zh/qui…>将文字转化为数字

使用向量数据库打造RAG: milvus.io/docs/zh/bui…

其他博客指路

入门博客-通往AIGC学习之路https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e