清华大学大模型共学课程--大模型绪论笔记

152 阅读7分钟

前言

这个夏天,OpenBMB 携手 HuggingFace、清华NLP实验室,让经典大模型公开课第二季梦幻回归💫。

全球知名开源社区 OpenBMB × Hugging Face 梦幻联动,MiniCPM、ChatDev、Ultra对齐等明星开源项目作者亲自授课,带领同学从深度学习开始快速了解大模型相关理论并进行实践。

OK,让我们开始第一节的学习,跟上HeteroCat的步伐,探索大模型的前沿知识吧。

前置信息

在这个课程中,我们将对人工智能(AI)进行深入介绍,并聚焦大语言模型(LLMs)的前沿发展。学生将深入了解人工智能的历史,关键技术和现有挑战。此外,本课程还会讨论通用人工智能的未来趋势,从而帮助学生更好参与由AI推动的技术变革浪潮。 image.png

image.png

人工智能的演进-历史

只有理解历史我们才有可能理解我们目前所处的位置,我们才能理解大语言模型,它在整个人工智能历史上非常重要的历史意义和地位。

我们身边的人工智能

image.png

互联网巨头对人工智能的看法

image.png

人工智能的定义

  • 目前,人工智能缺乏共识定义
  • 广义的讲,人工智能是机器(尤其是计算机系统)所展现的智能。它是计算机科学的一个研究领域,旨在开发和研究使机器能够感知周围环境的方法和软件,并利用学习和智能采取行动,最大限度地提高机器实现既定目标的机会

特别是使一个计算系统具备智能的能力,像我们人一样思考,像人一样行动的能力

人工智能的起源

人们天然就会去想我们有没有可能在人类肉体之外,能够构造一个机械的、用机器驱动的像人一样的智能体,这种思想根源是我们人类一直以来的梦想。

image.png

由梦想、神话转为一个科学的思考,从图灵开始。图灵测试将人工智能概念化

Alan mathison turing:计算机科学和人工智能之父。1950年,图灵发表了一篇开创性的论文《计算机器与智能》,在这篇文章中,他提出了“机器能思考吗?”的问题,从而引入了“可思考的机器”作为了人工智能的基础概念。

图灵测试(模仿游戏)由图灵在论文《计算机器与智能》提出,它是一种评估机器是否具有智能的方法。在图灵测试中,考官会向人类和机器提出问题。考官需要辨别哪个回答者是人类,哪个是机器。如果考官无法区分,则认为机器通过了测试,表现出人类水平的智能。

人工智能学科的诞生

1956年夏季达特茅斯会议 image.png 启发:在一个伟大的事业中,提出一个问题比解决一个具体问题的意义要大得多得多。

人工智能70年的发展

人工智能的关键问题:赋予机器执行复制任务的知识。

image.png

image.png

image.png

image.png

大模型的价值:足够的General,足够的通用,足够的泛化性

人工智能的演进-现在(2024)

通用人工智能的曙光

  • 随着计算成本的增加,LLM的性能不断提高。
  • 在许多任务中,现有的LLM(如GPT-3.5/4)已经取得了比人类更好的性能,预示着通用人工智能的曙光。

image.png

大佬对通用人工智能的看法

image.png

通用人工智能的定义

“通用人工智能”(AGI)这一术语的首次使用出现在 Mark Gubrud于1997年发表的一篇关于军事技术的文章中,先进通用人工智能是指在复杂性和速度上可与人脑媲美甚至超越人脑的人工智能系统,它可以获取、操纵和推理一般知识,并且可以在基本上任何需要人类智能的工业或军事行动阶段使用。随着技术的进步,对通用人工智能(AGi)的定义已经被拓宽,不再对特定实现机制提出要求。

Open ai的使命是确保人工通用智能(智能超过人类的Ai系统)能够惠及全人类。

image.png

目前人类只处于通用人工智能的开始阶段、初期阶段。

通用智能的神:Transformer架构

从狭义智能到通用智能的演进有三个关键的转变:

  • 各领域架构统一:从特定领域的架构转变为统一的Transformer架构

  • 各任务模型统一:从任务特定的小模型过渡到统一的大模型

  • 各模态模型统一:从多样化的模态数据过渡到统一的Token序列,并将其输入到 统一的大模型中

image.png

大语言模型(LLM)

什么是大语言模型?

  • 大语言模型作为“Next Token Prediction”模型运行,根据前面的上下文不断生成下一个Token,而且每次生成一个token都是自回归生成。

  • 大语言模型的训练过程涉及逐个Token输出训练语料库

  • 大语言模型的输出是概率分布,每次都会从中采样下一个Token

大模型训练方法:培养

image.png

  • 自监督预训练:只会傻瓜生成

image.png

  • 监督微调(SFT):类专家系统的匹配(对话数据)

image.png

  • RLHF:增强模型的泛化性,修正模型价值观(奖惩机制)

image.png

大语言模型成功的关键

image.png 实现通用人工智能LLMs的关键

  • 海量数据:海量语料库,LLMs获取广博知识
  • 大规模参数:参数大小的增加出现能力涌现

image.png 涌现能力表现为:能针对情景学习,能做出指令遵循,能分解复杂任务

情景学习

image.png

指令遵循

image.png

思维链

image.png

llm的潜力和挑战

image.png

人工智能的演进-未来

摩尔定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。(电路密度)

清华NLP实验室认为:未来的模型将越来越小,并且能力越来越强。(知识密度越来越高)

在过去的4年里,大模型的知识密度呈现每八个月增加一倍的趋势。 image.png image.png 也许未来在各个领域应用的大模型会有不同,但是大模型的管理和开发都将有统一的系统或者模式,像操作系统、编程语言、数据库等等一样,有统一的、规范的标准或者接口。 image.png

总结

学完第一节课,我对人工智能的定义有了更加清晰的认识,着迷于人们对人工智能的追求早在古希腊、西周就已经展露思考,梳理了人工智能的历史,对transformer架构和llm有更加细致的了解,震惊于“知识密度”的概念,对未来大模型的发展有了新的思考。

但是其实最大的收获是:

“在一个伟大的事业中,提出一个问题比解决一个具体问题的意义要大得多得多。”

对此我有一个思考:就目前的顶尖大模型来说,GPT4,Claude3.5已经几乎掌握了目前所有的文本知识,在知识的广度上超过了100%的人类,在知识的深度上超过了90%的人类(没有超过100%我认为是有一些东西是实践的认知,没办法在文本中展现。还有一些抓握在个人手中拿不到),同时因为涌现的能力他已经会思考了。那么站在现在大模型知识密度不断增加,算力不断增强的背景下,未来的顶尖大模型会是什么形态,他的智力会比我们高一个level吗?这个level要怎么提升?

同时有另一个问题,现在的模型都是孤立的模块,当各个模型像人一样联系起来,像人一样行动、交流、协作,那个智能的爆发会带来什么?我们都知道个人是有限的,所以有了公司,有了政府,有了社会,所以我们做到了很多个体做不到的事。当每个大模型作为一个个体组成一个社会、组织、公司、团队,那么他们的智力碰撞会带来什么?

AI的道路你我同行,共勉!Heterocat