ChatGPT与大模型研究

ChatGPT与大模型研究

ChatGPT与大模型研究

生成式AI探索和研究，场景落地。

等 130 人订阅共460篇文章创建于2023-05-22

检索增强生成 (RAG) 简介

尽管越来越多更大、更智能的模型不断被发布，但最先进的生成式大语言模型（LLMs）仍然面临一个大问题：它们在处理需要专业知识的任务时表现不佳。这种专业知识的缺乏可能导致问题，如“幻觉”，即模型生成不准确

1年前
289
1
评论

检索增强生成 (RAG) 简介

实操大型语言模型——文本分类

文本分类是自然语言处理中的常见任务。其目标是训练模型为输入文本分配一个标签或类别（见图4-1）。文本分类在全球范围内广泛应用于各种场景，从情感分析和意图检测到实体提取和语言检测。语言模型（无论是表示型

1年前
1.5k
2
评论

实操大型语言模型——探究大型语言模型的内部

现在我们已经对分词和嵌入有了一定的了解，接下来可以深入探讨语言模型的工作原理。在本章中，我们将研究Transformer语言模型的一些核心直觉。我们的重点是文本生成模型，以便更深入地理解生成型大型语言

1年前
416
点赞
评论

实操大型语言模型——探究大型语言模型的内部

实操大型语言模型——大型语言模型简介

自2012年起，人工智能系统（使用深度神经网络）的发展加速，到了十年末，首次出现了能够写出与人类撰写的文章难以区分的软件系统。这一系统是一个名为生成预训练变压器2（Generative Pre-tra

1年前
367
1
评论

实操大型语言模型——大型语言模型简介

从零开始构建大型语言模型——微调以遵循指令

本章内容包括：大型语言模型（LLM）的指令微调过程准备用于监督指令微调的数据集在训练批次中组织指令数据加载预训练的LLM并将其微调以遵循人类指令提取LLM生成的指令响应以进行评估评估经过指

1年前
557
1
评论

从零开始构建大型语言模型——微调以遵循指令

从零开始构建大型语言模型——微调用于分类

本章内容介绍不同的大型语言模型（LLM）微调方法准备用于文本分类的数据集修改预训练LLM以便进行微调微调LLM以识别垃圾信息评估微调后的LLM分类器的准确性使用微调后的LLM对新数据进行分

1年前
808
3
评论

从零开始构建大型语言模型——微调用于分类

从零开始构建大型语言模型——在无标签数据上进行预训练

本章内容包括：计算训练集和验证集的损失，以评估训练过程中LLM生成文本的质量实现训练函数并对LLM进行预训练保存和加载模型权重，以便继续训练LLM 从OpenAI加载预训练权重到目前为止，我们

1年前
443
点赞
评论

从零开始构建大型语言模型——在无标签数据上进行预训练

从零开始构建大型语言模型——从头开始实现一个 GPT 模型以生成文本

本章内容包括：编写一个类似 GPT 的大型语言模型（LLM），可以训练以生成类似人类的文本规范化层激活以稳定神经网络训练在深度神经网络中添加快捷连接实现 transformer 块，以创建不同

1年前
340
2
评论

从零开始构建大型语言模型——从头开始实现一个 GPT 模型以生成文本

从零开始构建大型语言模型——实现注意力机制

本章内容：使用注意力机制的原因基本的自注意力框架，逐步深入到增强的自注意力机制允许LLMs逐个生成词元的因果注意力模块通过dropout随机屏蔽部分注意力权重以减少过拟合将多个因果注意力模块

1年前
432
1
评论

从零开始构建大型语言模型——实现注意力机制

从零开始构建大型语言模型——处理文本数据

本章内容包括：为大型语言模型训练准备文本数据将文本拆分为单词和子词词元使用字节对编码（Byte Pair Encoding）作为更高级的文本标记化方法通过滑动窗口方法对训练示例进行采样将词元

1年前
373
1
评论

从零开始构建大型语言模型——处理文本数据

从零开始构建大型语言模型——理解大型语言模型

本章内容包括：对大型语言模型（LLM）背后基本概念的高层次解释对LLM所基于的Transformer架构的深入见解从零开始构建LLM的计划大型语言模型（LLM），例如OpenAI的ChatGP

1年前
356
点赞
评论

从零开始构建大型语言模型——理解大型语言模型

构建生产环境中的大型语言模型（LLMs）——LLM的实践应用

理解幻觉和偏见在过去几年里，我们在人工智能领域取得了令人瞩目的成就，但现成的基础模型仍然存在限制，这些限制限制了它们在生产环境中的直接使用，即使是最简单的任务也是如此。LLM的核心是从互联网上、书籍

1年前
244
点赞
评论

构建生产环境中的大型语言模型（LLMs）——LLM的实践应用

构建生产环境中的大型语言模型（LLMs）——LLM架构与现状

理解Transformer Transformer架构在各种应用中展示了其多才多艺的特性。最初的网络被提出作为一个用于翻译任务的编码器-解码器架构。Transformer架构的下一次演进是引入了仅编码

1年前
353
1
评论

构建生产环境中的大型语言模型（LLMs）——LLM架构与现状

构建生产环境中的大型语言模型（LLMs）——大型语言模型（LLMs）简介

什么是大型语言模型（LLMs）现在，你可能已经听说过它们了。大语言模型（Large Language Models，通常简称为LLMs）是一种复杂的神经网络。这些模型在自然语言处理（NLP）领域引发

1年前
415
点赞
评论

构建生产环境中的大型语言模型（LLMs）——大型语言模型（LLMs）简介

精通 PyTorch——音乐和文本生成与 PyTorch

PyTorch 是一个用于深度学习模型研究和开发基于深度学习应用的绝佳工具。在前面的章节中，我们探讨了跨越各种领域和模型类型的模型架构。我们使用 PyTorch 从头开始构建这些架构，并使用了 PyT

1年前
282
3
1

精通 PyTorch——音乐和文本生成与 PyTorch

精通 PyTorch——神经风格迁移（Neural Style Transfer）

在上一章中，我们开始使用 PyTorch 探索生成模型。通过在文本和音乐数据上进行无监督训练，我们构建了可以生成文本和音乐的机器学习模型。在本章中，我们将继续探索生成建模，并将类似的方法应用于图像数据

1年前
434
2
评论

精通 PyTorch——神经风格迁移（Neural Style Transfer）

精通 PyTorch——高级混合模型

在前面三章中，我们深入学习了各种卷积和循环网络架构，以及它们在PyTorch中的实现。在本章中，我们将探讨一些在各种机器学习任务中被证明成功的深度学习模型架构，它们既不完全是卷积型的，也不完全是循环型

1年前
181
1
评论

精通 PyTorch——高级混合模型

精通 PyTorch——深度循环模型架构

神经网络是强大的机器学习工具，用于帮助我们学习数据集的输入 (X) 和输出 (y) 之间的复杂模式。在第二章《深度卷积神经网络架构》中，我们讨论了卷积神经网络，它们学习了X与y之间的一对一映射关系；也

1年前
175
1
评论

精通 PyTorch——深度循环模型架构

精通 PyTorch——图神经网络

在前几章中，我们已经讨论了各种神经网络架构，从卷积神经网络到循环神经网络，从基于注意力机制的Transformer到自动生成的神经网络（NNs）。虽然这些架构覆盖了广泛的深度学习问题，但它们在处理存在

1年前
363
点赞
评论

精通 PyTorch——图神经网络

精通 PyTorch——结合 CNN 和 LSTM

卷积神经网络（CNNs）是一种深度学习模型，用于解决与图像、视频、语音和音频相关的机器学习问题，例如图像分类、目标检测、分割、语音识别、音频分类等。这是因为CNNs使用了一种特殊类型的层，称为卷积层，

1年前
3.6k
3
评论

精通 PyTorch——结合 CNN 和 LSTM