李宏毅大佬带你LLM入门（LLM到底是什么）人工智慧（目标）机器的智慧生成式人工智慧（目标）生成复杂而有结果的物件

人工智慧（目标）

机器的智慧

生成式人工智慧（目标）

生成复杂而有结果的物件。从有限的选项中做选择（不是生成式人工智慧）

机器学习概念

机器自动从资料里面找一个函式。

模型

有大量未知参数的函式

机器学习

机器学习（训练）：给定输入输出限制的前提下，把函式的=上万个参数找出来的过程

类神经网络：

大量参数的的函数
深度学习：
把神经网络的函式参数解出来的这个技术就是深度学习（就是机器学习的一种技术）

ChatGPT也是一个函数

ChatGPT背后原理

生成式人工智能不是今天才有的

ChatGPT 文字接龙过程

1、计算字出现的概率，掷筛子选字

token

就是在做文字接龙的时候可以选择的符号为什么不用英文单词做token ，因为英文单词无法被穷举，要用可以被穷举的符号做token。

为什么每次答案都不一样

因为每次选下一个字都是概率选择所以每次答案不一样

为什么不选概率最大的

语言模型怎么学习文字接龙呢？

自督导式学习（预训练）

是一种无监督学习的变体，旨在通过从数据本身生成标签或目标来训练模型，而不需要人工标注的数据。它的核心思想是利用数据的内在结构或特征，自动生成监督信号，从而让模型学习到有用的表示。

督导式学习

是机器学习中最常见的学习范式之一，其核心思想是通过标注数据（即输入数据和对应的标签）来训练模型，使模型能够学习从输入到输出的映射关系。以下是督导式学习的详细说明：（人工的调整下一个自出现的概率）

输入（Input） : 模型的输入数据，如图像、文本、音频等。
输出（Output） : 模型需要预测的目标，通常是标签或值。
标注数据: 包含输入和对应输出的数据集，用于训练模型。
目标: 学习一个函数 ff，使得 f(x)≈yf(x)≈y，其中 xx 是输入，yy 是对应的标签。

增强式学习

人工反馈GPT回答的好坏（不用给出正确答案），GPT调整此生成回答概率。
强化学习，就是训练智能体（Agent）在环境（Environment）中，以奖励（Reward）为引导信号，让它可以基于当前状态（State）作出合理动作（Action）的一种策略（Policy）学习。 juejin.cn/post/727929…

李宏毅大佬带你LLM入门（LLM到底是什么）