大模型AI入门指南1:名词解释

46 阅读16分钟

0x01

既然你点进来了,估计你也是大模型AI感兴趣,或者也想了解一下大概内容,那么就跟我一起学习吧。

那么,我们第一讲,就是清理一下,你平时碰到的各种大模型名词。

0x02

那么不废话,你看看,下面的这些名词,你知道哪些?这部分是通用的

名词

解释

AGI

Artificial General Intelligence(AGI),通用人工智能,是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。又名强人工智能。

AIGC

全称“AI generated content”,意为人工智能生成内容,是一种内容生产形式。例如AI文字续写

文字转像的AI图、AI主持人等,都属于AIGC的应用。

AI

Artificial Intelligence,即人工智能,1956年于Dartmouth学会上提出,一种旨在以类似人类反应的方式对刺激做出反应并从中学习的技术,其理解和判断水平通常只能在人类的专业技能中找到AI因具备自主学习和认知能力,可进行自我调整和改进,从而应对更加复杂的任务。

ANI

Artificial Narrow Intelligence(ANI),狭义的人工智能,即专注一件事的 AI ,如下围棋的AlphaGo。又名弱人工智能。

ASI

Artificial Super Intelligence(ASI),尽管存在争议,但ASI通常被定义为超越人类思维能力的人工智能。

Chatbot

一种计算机程序,旨在通过文本或语音交互模拟人类对话。聊天机器人通常利用自然语言处理技术来理解用户输入并提供相关响应。豆包,元宝

GenerativeAI / Gen AI

AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容例如图像、音乐或文本。

DeepMind

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技,在2014年被谷歌收购。DeepMind于2014年开始开发人工智能围棋软件AlphaGo,2016年3月战胜李世驾9段,震惊世界。

OpenAI

OpenAI是美国一个人工智能研究实验室,由非营利组织0penAIInc,和其营利组织子公司OpenAI LP所组成。OpenAI 进行 AI 研究的目的是促进和发展友好的人工智能,使人类整体受益。现任CEO为Sam Altman。

ChatGPT

ChatGPT是OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。

GPT-4

Generative Pre-trained Transformer 4,简称GPT-4,是由OpenAI公司开发并于2023年3月14日发布的自回归语言模型。GPT-4从各方面来说都优于OpenAI之前发布的GPT-3和GPT-3.5模型。

GPU

GPU(Graphics Processing Unit),一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。GPU 在执行训练和运行神经网络所需的计算方面也非常高效。

Distillation

蒸馏

将大模型的知识转移到小模型的过程。

MoE

Mixture of Experts专家混合模型,通过多个子模型提高性能。

Pruning

裁剪

减少模型参数以提高效率的技术,

SFT

Supervised Fine-Tuning

监督微调,针对特定任务对预训练模型进行调整。

0x03

看完了这些名词后,是不是这些开胃小菜还不能满足你,那么正文正式开始。

名词

解释

Agent

Agent(智能体)=一个设置了一些目标或任务,可以迭代运行的大型语言模型。这与大型语言模型(LLM)在像ChatGPT这样的工具中“通常”的使用方式不同。在ChatGPT中,你提出一个问题并获得一个答案作为回应。而Agent拥有复杂的工作流程,型本质上可以自我对话,而无需人类驱动每一部分的交互。

Alignment

人工智能对齐(英语:AI alignment)是指引导人工智能系统的行为,使其符合设计者的利益和预期目标。一个已对齐的人工智能的行为会向着预期方向发展;而未对齐的人工智能的行为虽然也具备特定目标,但此目标并非设计者所预期。

Attention

在神经网络的上下文中,注意力机制有助于模型在生成输出时专注于输入的相关部分,。

Backpropation

“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。

CNN

Convolutional Neural Network(CNN),一种深度学习模型,通过应用一系列过滤器来处理具有网格状拓扑(例如图像)的数据。此类模型通常用于图像识别任务。

CV

计算机视觉(Computer vision)是一门研究如何使机器"看”的科学,更进一步的说,就是指用影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计机处理成为更适合人眼观察或传送给仪器检测的图像。

CoT

思维链提示(CoT,Chain-of-thought) 通过提示 LLM 生成一系列中间步骤来提高 LLM 的推理能这些中间步骤会导致多步骤问题的最终答案。该技术由谷歌研究人员于 2022 年首次提出。

Data Augmentation

通过添加现有数据的略微修改的副本来增加用于训练模型的数据量和多样性的过程。

Deep Learning

深度学习是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。深度学习中的形容词“深度”是指在网络中使用多层。

Diffusion

Models

机器学习中,扩散模型或扩散概率模型是一类潜变量模型,是用变分估计训练的马尔可夫链。计算机视觉中,这意味着通过学习逆扩散过程训练神经网络,使其能对看加了高斯噪声的图像进行去噪。它是DALL-E、Stable Diffusion和Midjourney的基础模型。

Embedding

让我们想象一下,你正在玩一个叫做"猜词"的游戏。你的目标是描述一个词,而你的朋友们要根据你的描述猜出这个词。你不能直接说出这个词,而是要用其他相关的词来描述它。例如,你可以用"热"、"喝"、"早餐"来描述"咖啡"。这种将一个词转化为其他相关词的过程,就很像计算机科学中的"embedding"。…

Emergence

涌现(英语:emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。涌现在整合层次和复杂系统理论中起着核心作用。例如,生物学中的生命现象是化学的一个涌现。

End-to-End Learning

-种不需要手动设计功能的机器学习模型。该模型只是提供原始数据,并期望从这些输入中学习

Expert Systems

人工智能技术的应用,为特定领域的复杂问题提供解决方案。

Few-Shot

小样本学习也叫做少样本学习(low-shot learning),其目标是从少量样本中学习到解决问题的方法与小样本学习相关的概念还有零样本学习(zero-shot learning)等,零样本学习是指在没有训练数据的情况下,利用类别的属性等信息训练模型,从而识别新类别。

Fine-Tuning

微调是迁移学习的一种常用技术。目标模型复制了源模型上除掉了输出层外的所有模型设计及其参数,并基于目标数据集微调这些参数。微调在自然语言处理(NLP)中很常见,尤其是在语言建模领域。像OpenAI的GPT这样的大型语言模型可以在下游 NLP 任务上进行微调,以产生比预训练模型通常可以达到的更好的结果。

Forward

Propagation

在神经网络中,前向传播是输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。

Foundation

Model

在广泛数据上训练的大型AI模型,旨在适应特定任务

GAN

Generative Adversarial Network(GAN),一种机器学习模型,用于生成类似于某些现有数据的新数据。它使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器"试图将数据与真实数据区分开来。

Hallucinate

Hallucination

在人工智能的背景下,幻觉是指模型生成的内容不是基于实际数据或与现实明显不同的现象。

Inference

使用经过训练的机器学习模型进行预测的过程。

Instruction

Tuning

机器学习中的一种技术,其中模型根据数据集中给出的特定指令进行微调。

Knowledge

Distillation

数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似.数据蒸馏技术在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。它可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和型集成,提高型的鲁棒性。

LLM

large language model(LLM)大语言模型是由具有许多参数(通常为数十亿或更多权重)的神经网络组成的语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。

LSTM

长短期记忆(英语:Long Short-Term Memory,LSTM)是一种时间循环神经网络(RNN),论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

Loss Function

Loss Function(or Cost Function)也叫成本函数,机器学习模型在训练期间试图最小化的函数它量化了模型的预测与真实值的距离。

Machine

Learning

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以”知识”为重点,再到以“学习“为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。

Multimod

在人工智能中,这是指可以理解和生成多种类型数据(如文本和图像)信息的模型。

NLP

NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

Neural Network

-种受人脑启发的人工智能模型。它由连接单元或节点(称为神经元)组成,这些单元或节点按层组织。神经元接受输入,对它们进行一些计算,并产生输出。

Objective

Function

机器学习模型在训练期间寻求最大化或最小化的函数。

Parameters

在机器学习中,参数是模型用于进行预测的内部变量。它们是在训练过程中从训练数据中学习的例如,在神经网络中,权重和偏差是参数。

Pre-training

训练机器学习模型的初始阶段,其中模型从数据中学习一般特征、模式和表示,而无需具体了解稍后将应用于的任务。这种无监督或半监督学习过程使模型能够对底层数据分布有基本的了解,并提取有意义的特征,这些特征可用于随后对特定任务进行微调。

Prompt

Engineering

它是人工智能中的一个概念,特别是自然语言处理(NLP)。 在提示工程中,任务的描述会被嵌入到输入中。提示工程的典型工作方式是将一个或多个任务转换为基于提示的数据集,并通过所谓的“基于提示的学习(prompt-based learning)“来训练语言模型。

RAG

RAG(Retrieval-auqmented generation)检索增强生成

RLHF

在机器学习中,人类反馈强化学习( RLHF)或人类偏好强化学习 是一种直接根据人类反馈训练奖励模型“并将该模型用作奖励函数以使用强化学习优化代理策略的技术。

RNN

循环神经网络(Recurrent neural network:RNN)是神经网络的一种。单纯的RNN因为无法处理随着递归,权重指数级爆炸或梯度消失问题,难以捕捉长期时间关联:而结合不同的LSTM可以很好解决这个问题。

Reinforcement learning

强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。

Singularity

在人工智能的背景下,奇点(也称为技术奇点)是指一个假设的未来时间点,当技术增长可控和不可逆转时,导致人类文明发生不可预见的变化。

Supervised

Learning

监督学习是机器学习的一种方法,可以由训练资料中学到或创建一个模式(函数/learninmodel),并依此模式推测新的实例。训练资料是由输入对象(通常是向量)和预期输出。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类

TensorFlow

由 Google 开发的开源机器学习平台,用于构建和训练机器学习模型,

Token

语言模型处理的基本单位,通常是单词或子词。

Training Data

用于训练机器学习模型的数据集。

Transformer

Transformer模型(直译为“变换器”)是一种采用自注意力机制的深度学习模型,这一机制可以技输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。

Turing test

图灵测试是英国计算机科学家艾伦·图灵于1950年提出的思想实验,目的是测试机器能否表现出与人一样的智力水准。测试时测试者透过计算机键盘输入文本并透过屏幕输出文本。

Unsupervised

Learning

无监督学习是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群。无监督学习的主要运用包含:聚类分析(clusteranalysis)、关系规则(associationrule)、维度缩减(dimensionality reduce)。它是监督式学习和强化学习等策略之外的一种选择。

Validation

Data

机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。它用于调整模型的超参数(即架构,而不是权重)。

Vector

向量,物理、工程等也称作矢量、欧几里得向量(Euclidean vector),是数学、物理学和工程科学等多个自然科学中的基本概念。指一个同时具有大小和方向,且满足平行四边形法则的几何对象。理论数学中向量的定义为任何在称为向量空间的代数结构中的元素。一般地,同时满足具有大小和方向两个性质的几何对象即可认为是向量。向量常常在以符号加箭头标示以区别于其它量。与向量相对的概念称标量、纯量、数量,即只有大小、绝大多数情况下没有方向(电流是特例)、不满足平行四边形法则的量。

Vector Database

向量数据库(Om-iBASE)是基于智能算法提取需存储内容的特征,转变成具有大小定义、特征描述、空间位置的多维数值进行向量化存储的数据库,使内容不仅可被存储,同时可被智能检索与分析。

Weight

模型权重,在深度学习中,模型的权重(weights)是指神经网络中的参数,这些参数用于调整和学习模型的行为,以便能够对输入数据进行有效的映射和提取有用的特征。深度学习模型通常由许多神经元和连接组成,而权重就是连接这些神经元之间的参数。

Zero-Shot

零样本学习(ZSL)是一种机器学习范例,使用预先训练的深度学习模型来泛化新类别的样本。其思路是将训练实例中已经包含的知识迁移到测试实例分类的任务中。简单来讲,零样本学习技术学习中间语义层及其属性,然后在推理时应用它们来预测新数据。需要注意,零样本学习中训练和测试集是不相交的。

0x04

相信你看完上面这些名词后,大概知道了大模型的基础概念了,当然了,这些都是精简了很多以后的。

往后看到介绍AI的文章的时候,就可以查询这篇文章了。

以上讲解如果对你有帮助,不妨给我点个赞⭐️。若有疑问,就请评论留言告诉我。