首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
ChatGPT与大模型研究
数据智能老司机
创建于2023-05-22
订阅专栏
生成式AI探索和研究,场景落地。
等 130 人订阅
共460篇文章
创建于2023-05-22
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
检索增强生成 (RAG) 简介
尽管越来越多更大、更智能的模型不断被发布,但最先进的生成式大语言模型(LLMs)仍然面临一个大问题:它们在处理需要专业知识的任务时表现不佳。这种专业知识的缺乏可能导致问题,如“幻觉”,即模型生成不准确
实操大型语言模型——文本分类
文本分类是自然语言处理中的常见任务。其目标是训练模型为输入文本分配一个标签或类别(见图4-1)。文本分类在全球范围内广泛应用于各种场景,从情感分析和意图检测到实体提取和语言检测。语言模型(无论是表示型
实操大型语言模型——探究大型语言模型的内部
现在我们已经对分词和嵌入有了一定的了解,接下来可以深入探讨语言模型的工作原理。在本章中,我们将研究Transformer语言模型的一些核心直觉。我们的重点是文本生成模型,以便更深入地理解生成型大型语言
实操大型语言模型——大型语言模型简介
自2012年起,人工智能系统(使用深度神经网络)的发展加速,到了十年末,首次出现了能够写出与人类撰写的文章难以区分的软件系统。这一系统是一个名为生成预训练变压器2(Generative Pre-tra
从零开始构建大型语言模型——微调以遵循指令
本章内容包括: 大型语言模型(LLM)的指令微调过程 准备用于监督指令微调的数据集 在训练批次中组织指令数据 加载预训练的LLM并将其微调以遵循人类指令 提取LLM生成的指令响应以进行评估 评估经过指
从零开始构建大型语言模型——微调用于分类
本章内容 介绍不同的大型语言模型(LLM)微调方法 准备用于文本分类的数据集 修改预训练LLM以便进行微调 微调LLM以识别垃圾信息 评估微调后的LLM分类器的准确性 使用微调后的LLM对新数据进行分
从零开始构建大型语言模型——在无标签数据上进行预训练
本章内容包括: 计算训练集和验证集的损失,以评估训练过程中LLM生成文本的质量 实现训练函数并对LLM进行预训练 保存和加载模型权重,以便继续训练LLM 从OpenAI加载预训练权重 到目前为止,我们
从零开始构建大型语言模型——从头开始实现一个 GPT 模型以生成文本
本章内容包括: 编写一个类似 GPT 的大型语言模型(LLM),可以训练以生成类似人类的文本 规范化层激活以稳定神经网络训练 在深度神经网络中添加快捷连接 实现 transformer 块,以创建不同
从零开始构建大型语言模型——实现注意力机制
本章内容: 使用注意力机制的原因 基本的自注意力框架,逐步深入到增强的自注意力机制 允许LLMs逐个生成词元的因果注意力模块 通过dropout随机屏蔽部分注意力权重以减少过拟合 将多个因果注意力模块
从零开始构建大型语言模型——处理文本数据
本章内容包括: 为大型语言模型训练准备文本数据 将文本拆分为单词和子词词元 使用字节对编码(Byte Pair Encoding)作为更高级的文本标记化方法 通过滑动窗口方法对训练示例进行采样 将词元
从零开始构建大型语言模型——理解大型语言模型
本章内容包括: 对大型语言模型(LLM)背后基本概念的高层次解释 对LLM所基于的Transformer架构的深入见解 从零开始构建LLM的计划 大型语言模型(LLM),例如OpenAI的ChatGP
构建生产环境中的大型语言模型(LLMs)——LLM的实践应用
理解幻觉和偏见 在过去几年里,我们在人工智能领域取得了令人瞩目的成就,但现成的基础模型仍然存在限制,这些限制限制了它们在生产环境中的直接使用,即使是最简单的任务也是如此。LLM的核心是从互联网上、书籍
构建生产环境中的大型语言模型(LLMs)——LLM架构与现状
理解Transformer Transformer架构在各种应用中展示了其多才多艺的特性。最初的网络被提出作为一个用于翻译任务的编码器-解码器架构。Transformer架构的下一次演进是引入了仅编码
构建生产环境中的大型语言模型(LLMs)——大型语言模型(LLMs)简介
什么是大型语言模型(LLMs) 现在,你可能已经听说过它们了。大语言模型(Large Language Models,通常简称为LLMs)是一种复杂的神经网络。这些模型在自然语言处理(NLP)领域引发
精通 PyTorch——音乐和文本生成与 PyTorch
PyTorch 是一个用于深度学习模型研究和开发基于深度学习应用的绝佳工具。在前面的章节中,我们探讨了跨越各种领域和模型类型的模型架构。我们使用 PyTorch 从头开始构建这些架构,并使用了 PyT
精通 PyTorch——神经风格迁移(Neural Style Transfer)
在上一章中,我们开始使用 PyTorch 探索生成模型。通过在文本和音乐数据上进行无监督训练,我们构建了可以生成文本和音乐的机器学习模型。在本章中,我们将继续探索生成建模,并将类似的方法应用于图像数据
精通 PyTorch——高级混合模型
在前面三章中,我们深入学习了各种卷积和循环网络架构,以及它们在PyTorch中的实现。在本章中,我们将探讨一些在各种机器学习任务中被证明成功的深度学习模型架构,它们既不完全是卷积型的,也不完全是循环型
精通 PyTorch——深度循环模型架构
神经网络是强大的机器学习工具,用于帮助我们学习数据集的输入 (X) 和输出 (y) 之间的复杂模式。在第二章《深度卷积神经网络架构》中,我们讨论了卷积神经网络,它们学习了X与y之间的一对一映射关系;也
精通 PyTorch——图神经网络
在前几章中,我们已经讨论了各种神经网络架构,从卷积神经网络到循环神经网络,从基于注意力机制的Transformer到自动生成的神经网络(NNs)。虽然这些架构覆盖了广泛的深度学习问题,但它们在处理存在
精通 PyTorch——结合 CNN 和 LSTM
卷积神经网络(CNNs)是一种深度学习模型,用于解决与图像、视频、语音和音频相关的机器学习问题,例如图像分类、目标检测、分割、语音识别、音频分类等。这是因为CNNs使用了一种特殊类型的层,称为卷积层,
下一页