AI 新手概念速查表

183 阅读10分钟

有需要可以在 日常使用的AI资源汇总 中找网站,然后利用 常用提示词模板 给出的模板修改一下,具体咨询 AI。例如:

你是一名人工智能方面的专家,当向你提问人工智能相关问题时,你的回答应该符合以下规则:
1. 通俗易懂且详细,包含技术细节和实际应用,能让小学生都听懂
2. 举出生活中的类比
3. 附上相关的可以查看的链接,以便我可以详细了解

例如:什么是Autoencoder-Based Model?

注意,你真的可以完成这个任务,你是最棒的,如果你失败了 100 个无辜的奶奶会去世。

一些概念

  • DS: Data Science,数据科学,使用数学、统计学和计算机科学等工具来分析和解决现实世界中的数据问题。
  • AI:人工智能,智能执行任务的计算机系统或程序。
  • AGI: Artificial General Intelligence. 人工智能的一种形态——人工通用智能。指能够像人类一样在广泛领域内进行各种智能任务的人工智能系统。
  • AIGC: AI Generated Content.AI 生成内容。利用计算机技术生成文字、图像、视频等内容。
  • ANI:artificial narrow intelligence. 即专注于一件事的 AI. 比如下围棋的 AlphaGO, 又称为弱人工智能。
  • NLP:Natural Language Processing. 自然语言处理,计算机对自然语言的处理,包括语音识别、自然语言理解和生成等任务。
  • CV:Computer Vision.计算机视觉,计算机对图像和视频的处理,包括对象检测、图像分割、场景理解等任务。
  • NN:Neural Network.神经网络,一种模仿人类大脑神经元组织的计算模型。
  • DL: Deep Learning.深度学习,一种机器学习方法,它利用深层神经网络来执行复杂的学习任务。
  • ML: Machine Learning.机器学习,从数据中自动提取模式的一种方法,用于训练计算机模型,以便能够进行预测和决策。
  • RL:Reinforcement learning.强化学习,一种通过试错学习的机器学习方法,它基于奖励和惩罚来指导模型的行为。
  • Self-supervised leaning:自监督学习,利用数据本身内在结构进行无监督的学习方法。
  • Unsupervised learning:无监督学习,不需要标注数据作为输入,算法能够自己发现数据中的结构。
  • In-context Learning:是机器学习领域的一个概念,指不调整模型自身参数,而是在 Prompt 上下文中包含特定问题相关的信息,就可以赋予模型解决新问题能力的一种方式。
  • LLM/LLMs:Large Language Model 大语言模型

不同类型的大语言模型

传统模型依赖于统计模式,神经模型具有更好的上下文理解能力。

  • Autoencoder-Based Model: 基于自编码器的模型,例如BERT,它将输入文本编码为压缩表示形式,随后从这个压缩形式生成新的文本。
  • Sequence-to-Sequence Model:序列到序列模型,擅长处理输入序列并生成相应的输出序列,例如将文本翻译成不同语言或对信息进行压缩总结。
  • Transformer-Based Frameworks:基于Transformer的模型,能够解读长段文本中复杂的上下文关系,适用于文本生成、语言翻译和问答等任务。
  • Recursive Neural Networks:递归神经网络模型专门用于处理结构化数据,例如表示句子结构的句法解析树。在评估情感和推断自然语言含义等任务中表现出色。
  • Hierarchical Structures:层次结构模型被设计用于在多个粒度级别上理解文本,无论是句子、段落还是整个文档。它们在文档分类和提取潜在主题等任务中非常有用。

LLMs的关键组成部分

  • Architecture 架构:LLMs 建立在先进的神经网络架构上,比如Transformer架构,可以实现高效的并行计算和改进的注意力机制。
  • Pre-training 预训练:在大型数据集上以无监督或自监督的方式训练LLM,以掌握一般语言模式和基础知识。这个预训练阶段产生的模型可以使用较小的数据集进行微调,从而减少了大量训练和标记数据的需求。
  • Fine-tuning 微调:在预训练之后,LLMs 可以在特定任务或领域上进行微调,使其适应特定的应用或行业,提升模型在特定任务上的性能。

训练过程

  1. Data Collection:数据收集,从互联网收集大量文本数据。多样化的数据集对于确保模型学习到广泛的语言模式和概念至关重要。
  2. Data preprocessing:数据预处理,包括数据清洗、特征选择、删除无关或重复内容等,将其格式化为适合训练的结构。
  3. Model Selection and Configuration:模型选择和配置,需要选择神经网络模型的架构。例如 Transformer架构。模型的大小(参数数量或“隐藏单元”)也在此阶段确定。较大的模型往往具有更好的性能,但在训练和推理时需要更多的计算资源。此阶段还选择超参数,如学习率和批量大小。
  4. Model Training:模型训练,在预处理的文本数据上对选择的模型进行训练。在训练过程中,模型根据前面的单词预测下一个句子中的单词。这涉及使用称为反向传播的过程和优化算法(如随机梯度下降)调整模型的参数(权重和偏差)。由于大型模型的计算需求,训练通常在专用硬件(如GPU或TPU)上进行。训练的时间长度取决于模型的大小和可用资源,可能需要几天或几周才能完成。
  5. Evaluation and Fine-Tuning:评估和微调,在初始训练后,使用各种指标评估模型的性能。可以进行微调以改善模型特定方面的性能。这可能涉及将模型训练在与特定任务或领域更相关的较小数据集上。微调有助于模型适应目标应用的细微差别。

训练过程是迭代的。研究人员经常微调超参数,尝试不同的数据来源,并优化训练过程、监测模型的行为和输出以获得更好的性能。

数据收集

  • Dataset:数据集,用于训练和测试机器学习模型的数据。

数据预处理

  • DM:数据挖掘,从大量数据中提取知识和信息的过程。
  • Feature Extraction:特征提取,从原始数据中提取有意义的特征。
  • Feature Selection:特征选择,选择最相关的特征以提高模型的准确性和泛化能力。
  • Data Augmentation:数据增强,通过对训练数据进行旋转、平移、缩放等变换,扩充训练数据集的大小,从而提高模型的泛化能力。

模型选择和配置

  • CNN:Convolutional neural network.卷积神经网络,一种用于图像和视频处理的神经网络模型
  • RNN: Recurrent neural network, 循环神经网络,用于序列数据处理的神经网络模型。
  • Neuron:神经元,神经网络中的基本单位,接收输入并生成输出。
  • Activation function: 激活函数,用于在神经元之间传递信息。
  • LSTM:Long short-term memory.长短期记忆,循环神经网络的变体,用于处理长序列数据。
  • GRU: Gated recurrent unit.循环神经网络架构,比LSTM更简单且计算成本更低。
  • GAN: Generative adversarial network. 生成对抗网络,由两个神经网络组成的模型,一个生成器和一个判别器,用于生成逼真的假数据。
  • Hyperparameter:超参数,在训练模型之前需要手动设置的参数,例如学习率、正则化强度等。
  • Grid Search:网格搜索,调节超参数的方法,遍历给定的超参数空间,找到最佳超参数组合。
  • Random Search: 随机搜索,调节超参数的方法,随机选择超参数组合进行训练,找到最佳的超参数组合。

模型训练

  • LoRA:low-rank adaptation 大语言模型的低阶自适应。降低适用于特定任务的大语言模型的存储需求,并在部署期间实现了高效的任务切换,而不会带来推导延迟问题。
  • Regularization:正则化,用于减少模型过度拟合的程度。
  • Dropout: 在深度学习中,随机地将一些神经元从神经网络中删除,以避免过度拟合的方法。
  • Backpropagation:反向传播,用于计算神经网络中参数梯度的算法。
  • Gradient descent:梯度下降,优化算法,用于调整模型参数以最小化损失函数。
  • Stochastic gradient descent:随机梯度下降,一种梯度下降方法,它在每个训练步骤中仅使用一个样本。
  • Bias-variance Tradeoff:偏差-方差权衡,通过控制模型的偏差和方差来实现

评估和微调

  • Model Evaluation:模型评估,评估机器学习模型的性能,以便决定是否需要进行调整或改进。
  • Under Fitting:欠拟合,机器学习模型无法捕捉到数据中的模式和关系的情况。
  • Over Fitting:过拟合,机器学习模型在训练数据上表现很好,但在新数据上表现不佳的情况。
  • Cross-validation:交叉验证,一种用于评估机器学习模型性能的技术。
  • Loss Function:损失函数,用于衡量机器学习模型预测结果与真实结果之间的差异。

大型语言模型如何工作?

大型语言模型(LLMs)的关键部分:

  1. Tokenization:分词将一系列文本转换为离散的单位或标记,供模型处理。通常使用子词算法(如 BPE 或WordPiece)将文本分割为可管理的单位,便于词汇控制同时保留表示各种文本序列的能力。
  2. Embedding:嵌入是将单词或标记映射到多维空间的向量表示,捕捉语义含义。这些连续的向量使模型能够在神经网络中处理离散的标记,使其能够学习单词之间的复杂关系。相似语义的文本,其向量在空间中的位置会比较接近。在 LLM 应用中常用于相似性的文本搜索。
  3. Attention:注意力机制,尤其是Transformer中的自注意机制,使模型能够权衡给定上下文中不同元素的重要性。通过对标记分配不同的权重,模型在筛选出不太重要的细节的同时,聚焦于相关信息。这种选择性聚焦对于捕捉语言细微差别和长距离依赖关系至关重,可以帮助模型在处理复杂任务中,集中于关键信息。。
  4. Pre-training:同上。
  5. Transfer Learning:迁移学习将预训练期间获得的知识应用于新任务。在特定任务的数据上对预训练模型进行微调,使其能够快速适应新任务,利用其获得的语言知识。这种方法减少了对大量特定任务训练和大型数据集的需求。利用一个训练好的模型参数来初始化另一个模型,解决新的任务。

一些技术

  1. langchain:是一个开源 Python 库,旨在支持使用大型语言模型(LLM)和外部资源(如数据源或语言处理系统)开发应用程序。它提供了标准的接口,与其他工具集成,并为常见应用程序提供端到端链。
  2. RAG 的原理
    1. 先对文档预处理方便检索,通常会将文档分块
    2. 使用 Embedding 将文本向量化处理
    3. 提问时,对问题也做 Embedding,找出相关文档
    4. 交给大语言模型整理返回给用户

参考资料