GLM系列 Tw_xxxx 2024-11-15 62 阅读1分钟 背景 GLM的核心是:自回归空白填充(Autoregressive Blank Infilling) Prefix LM 架构 技术原理 GLM 在只使用 Transformer 编码器的情况下,自定义 attention mask 来兼容三种模型结构,使得前半部分互相之间能看到,等效于编码器(BERT)的效果,侧重于信息提炼、后半部分只能看到自身之前的,等效于解码器(GPT)的效果,侧重于生成。这样综合起来实现的效果就是,将提炼信息作为条件,进行有条件地生成 GLM 的预训练 GLM 的微调