GPT开源大模型原理及本地部署调优

2024-12-06 539 阅读5分钟

1 GPT模型的核心特点

预训练与微调:GPT模型首先在大规模的文本数据集上进行预训练，学习语言的通用式和结构。预训练完成后，模型可以通过微调(fine-tuning)的方式适应特定的任务，如文本分类、问答、文本生成等。

变换器架构:GPT使用了变换器(Transformer)架构，这是一种基于自注意力机制(Self-Attention Mechanism)的神经网络结构，能够捕捉文本中的长距离依赖关系。与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)相比，变换器在处理序列数据方面更加高效和强大生成式模型:GPT是一个生成式模型，意味着它不仅能够理解语言，还能够生成连贯、有意义的文本。这使得GPT在文本创作、对话系统和其他需要文本生成能力的应用中表现出色。

大规模参数:GPT模型拥有大量的参数，例如GPT-3模型拥有1750亿个参数，这使得它能够学习和存储大量的知识和信息，从而在各种任务上取得优异的性能。

2 GPT原理

大模型局限性:没有记忆能力训练成本巨大不具备推理能力

模拟国内地址: aichatos--chat18.aichatos58.com/

GPT接口费用: openai.com/api/pricing

3 提示工程中文指南(prompt)

www.promptingguide.ai/zh

ChatGPT结构化提示词不是所有的大模型都支持 kimi和gpt可以直接问大模型就行

Role:<name>:指定角色会让 GPT 聚焦在对应领域进行信息输出
## Profileauthor/version/description:Credit 和迭代版本记录
## Goals: -句话描述 Prompt 目标,让 GPT Attention 聚焦起来
梁泽运
## Constrains: 描述限制条件,其实是在帮 GPT 进行剪枝,减少不必要分支的计算
## Skills: 描述技能项,强化对应领域的信息权重
## Workflow: 重点中的重点,你希望 Prompt 按什么方式来对话和输出
# Initialization: 冷启动时的对白,也是一个强调需注意重点的机会

4 AI工具集

ai-bot.cn
文心一言

文心一言工具集-插件收费了

支持表格数据格式

根据上下文触发不同的知识库 office知识库 python知识库

文本格式数据分析

直接问我怎么给你发送表格数据

绘制柱状图提示词--提示词+数据请把下面的数据生成柱状图，年份为横轴，录取率为纵轴。年份|热门学校本科录取率【热门学校研究生录取率普通学校本科录取率普通学校研究生录取率

2018|185%|78%|72%|65% 2019|87.5%|81.5%|75.5%|68.5% 2022190.2%194.2%198.2%191.2% 2021192.1%|86.1%|80.1%|73.1%|

5 应用

大模型写简历---hr大模型筛查简历

供应链供应商风险要素分析自动机器人引导车辆

百图生科: 生物医疗中模拟药物和蛋白质相和

6 开源大模型-每个算法背后都有论文

法国)在线大模型: build.nvidia.com/explore/dis…
llama

这个博客有全程过程: blog.csdn.net/qq_41185868…
官网文章(原理介绍)：ai.meta.com/blog/meta-l…
官网文章(助手应用)：
GitHub地址：github.com/meta-llama/…
文档地址：llama.meta.com/docs/model-…
在线体验地址：llama.meta.com/llama3/

比亚迪github.com/xai-org/gro…
ChatGLM: github.com/THUDM/ChatG…

大模型本地部署+显卡租服务器显卡 GPU 显卡驱动

拉下来本地就可以运行大模型需要显卡

2000块 40g显存大模型训练加速卡 (带gpu的不需要显卡)

创业公司(很多代码都有问题): 大模型拉下来+web页面=大模型平台

有用的: 参数调优

大模型: 预测类

7. 大模型微调流程

1.数据准备: 选择与任务相关的数据集。对数据进行预处理，包括清洗、分词、编码等，

2.选择基础模型: 选择一个预训练好的大语言模型，如BERT、GPT-3等

3.设置微调参数: 设定学习率、训练轮次(历元)、(批次大小)等超批处理大小参数。根据需要设定其他超参数，如权重衰减、梯度剪切等。

4.微调流程: 加载预训练的模型和权重。根据任务需求对模型进行必要的修改，如更改输出层。选择合适的损失函数和优化器。包括前向传播、损失计算、反向传播和权重更新，使用选定的数据集进行微调训练，

8 举例:lora 模型调优

LoRA(Low-Rank Adaptation)通过引入低秩矩阵分解，在减少计算资源和存储需求的同时，保持了预训练模型的初始性能，稳定了微调过程并降低了存储和部署成本。它特别适用于大规模模型的微调，在资源有限的环境中具有显著的优势

微调旁路优化找到未知数输入已知输出已知怎么喂模型

下面这个是微调框架上面都不用调直接用这个封装更好

9 大模型RAG-直接抽取答案

检索增强生成(RetrievalAugmented Generation)，简称 RAG.

RAG旨在弥补大模型知识局限性、幻觉问题和数据安全性的不足

它通过向量搜索从私域数据库中检索相关信息，结合问题生成提示，使模型能提供准确答案。RAG=检索技术+LLM 提示。

例如，我们向 LLM 提问一个问题(answer)，RAG 从各种数据源检索相关的信息，并将检索到的信息和问题(answer)注入到 LLM 提示中，LLM 最后给出答案。

10 数据处理

开源数据集:www.modelscope.cn

数据脱敏工具

向量化数据库: milvus.io/docs/zh/qui…>将文字转化为数字

使用向量数据库打造RAG: milvus.io/docs/zh/bui…

其他博客指路

入门博客-通往AIGC学习之路https://waytoagi.feishu.cn/wiki/QPe5w5g7UisbEkkow8XcDmOpn8e