chatgpt神经网络在做什么....优化prompt

221 阅读6分钟

Compress argument:Compression for AGI

复杂现象的底层存在着一些极度简单的原理,当你熟知并能灵活使用这些原理时便可以像推导公式一样对事物的发展进行演绎和预测

Compression for AGI - Jack Rae | Stanford MLSys #76

token,是NPL语言模型中文本的最小单位,可以是单词,字母、字符等等

AGI(aritifical generate intellifence)通用人工智能

Sota state-of-the-art 描述机器学习中取得某个任务上当前最优结果的模型

  • 更小更短的有效方法描述,代表了对任务更好的理解,当对有效方法无损压缩到最小长度时,就得到了最优解。
  • 数据集不可能越大越好,压缩的目标不是保证对训练数据做更好的预测,而是基于压缩(有效方法)能够对真实信息世界最大程度的泛化能力。
  • 明确 AGI 基础模型的目标(任务)并搜集尽可能多的有效数据,然后使用所有可能的无损压缩方式,从而得到对任务方法的最小描述长度。

那么为了达到这个目的,有以下可使用方法:

  1. 模型架构
  2. 模型尺寸
  3. 第三方工具
  4. 检索
  5. 人工合成数据

Openai 提供基础模型能力,langChain是开源的应用开发框架,帮助开发人员用语言模型构建端到端的应用程序,简化LLM和聊天模型提供支持的应用程序的过程。

loss:模型预测结果与真实结果差距

loss=bias.loss+variance.loss

Bias 是偏差,模型预测值于真实值的平均偏离水平;

Variance 是方差,描述模型预测值在不同训练集上的波动程度,存在较高方差,说明模型复杂,对数据敏感容易,过拟合。

值域是指目标变量可能的取值范围,它对于机器学习模型的建模和评估具有重要意义。

如何处理bias大:重新设计模型

  • 添加数据新的特征
  • 更加复杂的modle,增大function space(也可能引入噪音,需要特征选择和特征工程)

如何处理variance大

  • 增大数据量

以"词"为单位生成文本

chatgpt的生成原理是在迭代"在已有的文本基础上,下一个单词应该是什么?"

每一步,chatgpt都会生成一个带有概率的单词表,然后基于xxx方法选择添加该单词到末尾。(xxx方法,openai做的很出色)

但是概率从哪里来?通过足够多的统计,获得单个字母、2-grams、3-grams的概率估计,逐渐更新n-gram概率,得到每个单词的出现概率。

  • transofmer:词语组成的文本序列没有逻辑,怎么办?
  • What is transfomer:将input转换为具有新表示、新特征的输出数据,主要用于特征选择、特征生成等任务。

    • How it works in chatgpt:
      • 自注意力机制:捕获input不同位置之间的依赖关系,理解序列的上下文和语义信息。

      • 序列编码与解码:endocer(编码)捕获序列的上下文信息、位置标记和语义关联,通过多层自注意力机制和前馈神经网络,学习导输入序列中不同位置的依赖关系和重要性,编码为高维向量。 Decoder(解码)按照编码后的输入序列表示和上下文信息,生成目标序列。

        • 每一层的第i个神经元:使用同一种激活函数,对上一层的神经元输出结果运算矩阵和加法
      • 多头注意力机制:在不同注意力子空间学习,关注 输入序列中不同位置和语义信息。

      1. 残差连接和层归一化:为了帮助模型更好地学习和优化,Transformer使用了残差连接(输入输出之间加入残差链接,可以对学习修正)和层归一化。残差连接允许信息在模型中跳过多个层级,以便更好地传递和保留原始信息。层归一化则有助于提高模型的训练稳定性和收敛性。

    • 堆叠多层transofrmer编码器,每层都可以对input信息提取和表示学习,逐渐捕捉到不同抽象级别的语义特性。
  • 不同抽象级别,如单词、单词与单词之间的局部关系;短语、句子的语义关联、语法结构和上下文信息,上下文理解、语义脱离和逻辑关系。

    eepoch:周期,batch:数据由被划分为多少批次。

    • 大规模无监督的训练来学习文本数据中的语言规律与表征,压缩文本语句本质。再在特定问题上微调。
  • 用户可以在prompt中使用高层级的语义特征来描述所需的大意或主题,以引导模型生成相关的文本。同时,用户还可以使用低层级的语义特征,如具体的关键词或短语,以获得更具体和详细的回答。

    • 计算语言比以往更加强烈,神经网络将图像、文本、视频抛开人类情感加持进行端到端的矩阵乘法和常数加法,用一种没想到的简单方式认识世界。
    • 也许,局部最小值优化不收敛的原因是低纬度错觉。
  •   总结

  • 那么了解transofmer模型对chatgpt的作用步骤对我们使用大预语言模型有什么帮助?首先是它的原理:
    1. 首先我们知道transformer模型将input用N-grams分割token(诸如单词、句子和段落),得到每个token的出现概率。
    2. 基于自注意力机制捕获token的上下文信息和语义内容。
    3. 基于概率分布迭代获取下一个token,得到output。
  •   由于 transformer模型会获取token概率和上下文内容,我们需要做的是掌握这个任务(领域)内的关键词和前置条件(零散的可以但效果不好,因为零散关键词之间存在层次关系的不清晰)或者基于知识树(知识图谱),掌握该任务(领域)的内部逻辑,才能辅佐我们提高工作效率。(需要担心数据泄露的事情,因为每个prompt建立于不同领域、不同知识图谱之间的连接,会创造全新idea)。