清华大学大模型共学课程--神经网络和大模型基础笔记

112 阅读1分钟

基础神经网络

神经元

神经元是一个计算单元,它由n维输入x,1维偏置b,n维权重W,激活函数f(z)构成,w,b是该神经元的参数。

image.png

单层神经网络

单层神经网络是由许多简单的神经元连接在一起构成的。

image.png

多层神经网络

多层神经网络由多个单层神经网络堆叠而成,中间输出被称为隐藏状态。一个多层神经网络可以通过层次化表示来表示更复杂的特征

image.png

激活函数

image.png

训练神经网络

训练目标

image.png

梯度下降

image.png

反向传播

image.png

image.png

RNN循环神经网络

image.png

image.png

image.png

CNN卷积神经网络

CNN通过计算句子中所有可能的N-gram短语的表示,擅长提取局部和位置不变的模式(N-gram表示从一个给定的文本序列中提取的连续N个项目的子序列)

image.png

image.png

image.png

Seq2Seq

image.png

Transformer

image.png

image.png

大模型基础

迁移学习

image.png

大模型预训练

词向量Word2Vec(填空)

image.png

运用RNN结合生成的上下文消除二义性

image.png

大语言模型

2018年,以ELMo、BERT为代表的预训练模型给NLP领域带来了一场革命基于预训练模型的工作在几乎所有NLP任务上都取得了巨大突破,各类基准( benchmark)结果也得到了显著提升。 image.png

image.png