清华大学大模型共学课程--神经网络和大模型基础笔记

2024-08-05 114 阅读1分钟

基础神经网络

神经元

神经元是一个计算单元,它由n维输入x,1维偏置b,n维权重W,激活函数f(z)构成,w,b是该神经元的参数。

单层神经网络

单层神经网络是由许多简单的神经元连接在一起构成的。

多层神经网络

多层神经网络由多个单层神经网络堆叠而成,中间输出被称为隐藏状态。一个多层神经网络可以通过层次化表示来表示更复杂的特征

激活函数

训练神经网络

训练目标

梯度下降

反向传播

RNN循环神经网络

CNN卷积神经网络

CNN通过计算句子中所有可能的N-gram短语的表示,擅长提取局部和位置不变的模式(N-gram表示从一个给定的文本序列中提取的连续N个项目的子序列)

Seq2Seq

Transformer

大模型基础

迁移学习

大模型预训练

词向量Word2Vec（填空）

运用RNN结合生成的上下文消除二义性

大语言模型

2018年,以ELMo、BERT为代表的预训练模型给NLP领域带来了一场革命基于预训练模型的工作在几乎所有NLP任务上都取得了巨大突破,各类基准( benchmark)结果也得到了显著提升。