首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
ChatGPT与大模型研究
数据智能老司机
创建于2023-05-22
订阅专栏
生成式AI探索和研究,场景落地。
等 113 人订阅
共327篇文章
创建于2023-05-22
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
LLM工程师手册——基于偏好对齐的微调
监督微调(SFT)在使 LLM 执行特定任务方面起到了重要作用。然而,SFT 在捕捉人类偏好的细微差别和模型可能遇到的长尾交互方面存在局限性。为了克服这一限制,开发了更先进的技术来使 AI 系统与人类
LLM工程师手册——推理流水线部署
部署大语言模型 (LLM) Twin 应用的推理流水线是机器学习 (ML) 应用生命周期中的关键阶段。这是为业务创造最大价值的地方,使模型可供终端用户访问。然而,成功部署 AI 模型可能具有挑战性,因
LLM工程师手册——MLOps 和 LLMOps
在本书中,我们已经使用了机器学习操作(MLOps)的组件和原则,例如模型注册表,用于共享和版本化我们微调的大型语言模型(LLMs),逻辑特征存储用于我们的微调和 RAG 数据,以及协调器将我们所有的
LLM工程师手册——RAG 推理管道
回顾第4章,我们实现了检索增强生成(RAG)特征管道,用于填充向量数据库(DB)。在特征管道中,我们从数据仓库中收集数据,进行清理、分块和嵌入文档,最终将它们加载到向量数据库中。因此,到目前为止,向量
LLM工程师手册——推理优化
部署LLMs具有挑战性,因为它们对计算和内存的需求非常高。高效运行这些模型需要使用专用加速器,如GPU或TPU,以并行化操作并提高吞吐量。尽管一些任务(如文档生成)可以在夜间批量处理,但其他任务(如代
LLM工程师手册——评估大语言模型
LLM 评估是评估大型语言模型性能和能力的关键过程。评估可以采取多种形式,例如选择题回答、开放式指令以及来自真实用户的反馈。目前,还没有统一的方法来衡量模型的表现,但我们可以根据特定的使用场景来调整已
基于 RAG 的生成式 AI——提升 RAG 性能:借助专家人类反馈
人类反馈(HF)不仅对生成式 AI 有用,而且是必不可少的,特别是在涉及 RAG 的模型时。生成式 AI 模型在训练期间使用来自各种文档的数据集中的信息。训练 AI 模型的数据固定在模型的参数中;除非
基于 RAG 的生成式 AI——用于无人机技术的多模态模块化RAG
我们将在本章中通过模块化RAG将生成式AI提升到一个新的水平。我们将构建一个系统,通过不同的组件或模块来处理不同类型的数据和任务。例如,一个模块处理使用LLMs的文本信息,这也是我们在前几章中一直在做
基于 RAG 的生成式 AI——使用 LlamaIndex、Deep Lake 和 OpenAI 构建基于索引的 RAG
索引不仅提高了精度和速度,还提供了更多优势。索引通过增加透明度的层次,彻底改变了基于检索增强生成的 AI。使用索引,RAG 模型生成的响应来源完全可追溯,使我们能够清楚地看到所用数据的具体位置和详细内
基于 RAG 的生成式 AI——使用 Deep Lake 和 OpenAI 实现 RAG 嵌入向量存储
在实施 RAG 驱动的生成式 AI 时,项目执行过程中会不可避免地遇到复杂性。嵌入将庞大的结构化或非结构化文本转化为紧凑的高维向量,以捕捉其语义精髓,从而实现更快速、更高效的信息检索。然而,随着处理越
基于 RAG 的生成式 AI——为何选择 RAG 技术
即使是最先进的生成式 AI 模型,也只能基于它们已训练的数据生成响应。它们无法准确回答超出训练数据范围的问题。生成式 AI 模型“并不知道它们不知道的内容”!这会导致不准确或不恰当的输出,有时被称为幻
Rust中的异步编程——Coroutines 和 async/await
现在你已经对Rust的异步模型有了一个简要的了解,是时候来看看它如何融入到本书迄今为止涉及的内容中。 Rust的futures是基于无栈协程(stackless coroutines)的异步模型的一个
机器学习生产系统——可解释性
模型的可解释性有助于你更深入地理解模型的工作原理。 可解释性本身并没有一个数学定义。Biran 和 Cotton 提出了一个关于可解释性的良好定义。他们写道,系统,或者在本例中是模型,“如果其操作可以
机器学习生产系统——高性能建模
在生产场景中,从模型中获得最佳性能对于提供快速响应时间、低成本以及低资源需求至关重要。当计算资源需求较大时,尤其是处理大型模型和/或数据集时,或者当推理延迟和/或成本要求具有挑战性时,高性能建模变得尤
机器学习生产系统——模型资源管理技术
模型所需的计算、存储和输入/输出系统将决定将模型投入生产并在整个生命周期内维护它的成本。在本章中,我们将介绍一些重要的技术,这些技术可以帮助我们管理模型的资源需求。我们将重点关注三个关键领域,这些领域
机器学习生产系统——高级标签、增强和数据预处理
本章中的主题对于塑造你的数据,以便从中获得最大价值,尤其是在监督学习环境中,对于模型来说是非常重要的。特别是标签化,通常是机器学习应用创建、维护和演化过程中最昂贵且最耗时的活动之一。充分理解可用的选项
机器学习生产系统——数据旅程和数据存储
本章讨论生产管道生命周期中数据的演变。我们还将介绍一些可用于帮助管理该过程的工具。 正如前几章所述,数据是机器学习生命周期中的关键部分。随着机器学习生命周期中数据和模型的变化,能够识别、追踪和重现数据
机器学习生产系统——特征工程与特征选择
特征工程和特征选择是机器学习数据预处理的核心,尤其是在模型训练过程中。进行推理时同样需要特征工程,且推理阶段的预处理必须与训练阶段的预处理相匹配,这一点至关重要。 如果你曾在学术或研究环境等非生产场景
机器学习生产系统——数据收集、标注与验证
在生产环境中,你会发现数据的重要性令人深思。我们采访了Uber和Gojek的机器学习从业者——在这两个数据和机器学习至关重要的企业中,他们对此有以下看法: “数据是机器学习中最难的部分,也是最重要的一
机器学习生产系统——简介
机器学习工程领域非常广泛,以至于在将模型从实验阶段转移到生产部署过程中,容易迷失在各个必要步骤中。近年来,机器学习、新兴的机器学习概念(如注意力机制),以及最近的大型语言模型(LLMs)几乎每天都出现
下一页