首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
ChatGPT与大模型研究
数据智能老司机
创建于2023-05-22
订阅专栏
生成式AI探索和研究,场景落地。
等 113 人订阅
共327篇文章
创建于2023-05-22
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
LLM工程师手册——监督微调
监督微调(SFT) 是为大型语言模型(LLM)准备实际应用的关键步骤。在初始预训练阶段,LLM 学习如何预测序列中的下一个标记,而通过 SFT 微调则可以利用精心编排的指令和对应的答案对,进一步优化模
LLM工程师手册——RAG 特性管道
检索增强生成 (RAG) 是大多数生成式 AI 应用中的基础技术。RAG 的核心职责是将自定义数据注入大型语言模型 (LLM),使其能够执行特定操作(如总结、重述或提取注入的数据)。在使用 LLM 时
LLM工程师手册——数据工程
本章将深入探讨LLM双生子项目。我们将学习如何设计和实现数据收集管道,以收集所有LLM用例(如微调或推理)所需的原始数据。由于本书并非关于数据工程的专著,因此我们将保持简洁,仅关注收集所需原始数据的必
LLM工程师手册——工具与安装
本章介绍将在全书中使用的所有必要工具,特别是在实现和部署LLM双生子项目中。在本书的这一部分,我们不打算深入讲解LLM、RAG、MLOps或LLMOps概念,而是快速带你浏览我们的技术栈和前置条件,以
LLM工程师手册——理解LLM双生子概念与架构
到本书结束时,我们将引导你完成构建端到端大型语言模型(LLM)产品的旅程。我们坚信,学习LLM和生产级机器学习(ML)的最佳方式是亲自动手,构建实际系统。本书将教你如何构建一个“LLM双生子”——一个
检索增强生成 (RAG) 简介
尽管越来越多更大、更智能的模型不断被发布,但最先进的生成式大语言模型(LLMs)仍然面临一个大问题:它们在处理需要专业知识的任务时表现不佳。这种专业知识的缺乏可能导致问题,如“幻觉”,即模型生成不准确
实操大型语言模型——文本分类
文本分类是自然语言处理中的常见任务。其目标是训练模型为输入文本分配一个标签或类别(见图4-1)。文本分类在全球范围内广泛应用于各种场景,从情感分析和意图检测到实体提取和语言检测。语言模型(无论是表示型
实操大型语言模型——探究大型语言模型的内部
现在我们已经对分词和嵌入有了一定的了解,接下来可以深入探讨语言模型的工作原理。在本章中,我们将研究Transformer语言模型的一些核心直觉。我们的重点是文本生成模型,以便更深入地理解生成型大型语言
实操大型语言模型——大型语言模型简介
自2012年起,人工智能系统(使用深度神经网络)的发展加速,到了十年末,首次出现了能够写出与人类撰写的文章难以区分的软件系统。这一系统是一个名为生成预训练变压器2(Generative Pre-tra
从零开始构建大型语言模型——微调以遵循指令
本章内容包括: 大型语言模型(LLM)的指令微调过程 准备用于监督指令微调的数据集 在训练批次中组织指令数据 加载预训练的LLM并将其微调以遵循人类指令 提取LLM生成的指令响应以进行评估 评估经过指
从零开始构建大型语言模型——微调用于分类
本章内容 介绍不同的大型语言模型(LLM)微调方法 准备用于文本分类的数据集 修改预训练LLM以便进行微调 微调LLM以识别垃圾信息 评估微调后的LLM分类器的准确性 使用微调后的LLM对新数据进行分
从零开始构建大型语言模型——在无标签数据上进行预训练
本章内容包括: 计算训练集和验证集的损失,以评估训练过程中LLM生成文本的质量 实现训练函数并对LLM进行预训练 保存和加载模型权重,以便继续训练LLM 从OpenAI加载预训练权重 到目前为止,我们
从零开始构建大型语言模型——从头开始实现一个 GPT 模型以生成文本
本章内容包括: 编写一个类似 GPT 的大型语言模型(LLM),可以训练以生成类似人类的文本 规范化层激活以稳定神经网络训练 在深度神经网络中添加快捷连接 实现 transformer 块,以创建不同
从零开始构建大型语言模型——实现注意力机制
本章内容: 使用注意力机制的原因 基本的自注意力框架,逐步深入到增强的自注意力机制 允许LLMs逐个生成词元的因果注意力模块 通过dropout随机屏蔽部分注意力权重以减少过拟合 将多个因果注意力模块
从零开始构建大型语言模型——处理文本数据
本章内容包括: 为大型语言模型训练准备文本数据 将文本拆分为单词和子词词元 使用字节对编码(Byte Pair Encoding)作为更高级的文本标记化方法 通过滑动窗口方法对训练示例进行采样 将词元
从零开始构建大型语言模型——理解大型语言模型
本章内容包括: 对大型语言模型(LLM)背后基本概念的高层次解释 对LLM所基于的Transformer架构的深入见解 从零开始构建LLM的计划 大型语言模型(LLM),例如OpenAI的ChatGP
构建生产环境中的大型语言模型(LLMs)——LLM的实践应用
理解幻觉和偏见 在过去几年里,我们在人工智能领域取得了令人瞩目的成就,但现成的基础模型仍然存在限制,这些限制限制了它们在生产环境中的直接使用,即使是最简单的任务也是如此。LLM的核心是从互联网上、书籍
构建生产环境中的大型语言模型(LLMs)——LLM架构与现状
理解Transformer Transformer架构在各种应用中展示了其多才多艺的特性。最初的网络被提出作为一个用于翻译任务的编码器-解码器架构。Transformer架构的下一次演进是引入了仅编码
构建生产环境中的大型语言模型(LLMs)——大型语言模型(LLMs)简介
什么是大型语言模型(LLMs) 现在,你可能已经听说过它们了。大语言模型(Large Language Models,通常简称为LLMs)是一种复杂的神经网络。这些模型在自然语言处理(NLP)领域引发
精通 PyTorch——音乐和文本生成与 PyTorch
PyTorch 是一个用于深度学习模型研究和开发基于深度学习应用的绝佳工具。在前面的章节中,我们探讨了跨越各种领域和模型类型的模型架构。我们使用 PyTorch 从头开始构建这些架构,并使用了 PyT
下一页