机器学习-从模式识别到复杂推理

121 阅读7分钟

导学

通识课程 b站 【合集·AI在大前-哔哩哔哩】 b23.tv/fsPXwku

背景 1956 达克茅斯会议; 1997 深蓝战胜人类国际象棋大师

学习人工智能要从机器学习开始

一 机器解决知识的问题,二 机器学习解决了知识自动获取的能力

机器实现自动化, 机器学习实现智能化

机器学习

机器学习的概念和三大支柱

学校里不擅长搞算力 强大的算力是基础

数据是知识的来源

机器学习方法=模式形式+学习准则+优化算法机器学习任务的类型

  1. 模型形式: 将学习表述成数学问题,为利用计算机解决奠定了基础
  2. 学习准则: 使得学习得到的知识能够更好地解决智能问题
  3. 优化算法: 利用数据来求解模型参数的计算方法

机器学习到底是什么? --机器学习的三大支柱 计算机、数据、机器学习方法

--机器学习方法的三大要素 机器学习方法=模式形式+学习准则+优化算法

--机器学习任务的类型 监督学习、非监督学习、强化学习、前沿机器学习技术等

机器学习三要素:智能函数

智能函数是一种特殊的函数,其特点是带有可以调节的参数-调参

image-20241204144521219

线性函数;sigmoid函数; 指数函数

image-20241204144545796

人的大脑由神经元构成, 线性函数加权求和加非线性映射构成神经元

一个神经元就是一个基元模型,很多神经元构成大模型

机器学习三要素

人脑学习和机器学习共享相同的规律

机器学习获取知识的基本方法有两种:实例法(预训练采用)和解释法

超纲知识: 对于具有涌现能力的大模型也可以通过解释法进行学习,这种方法叫做提示学习

泛化能力:

怎样判断学习效果的好坏呢?-举一反三: 举一隅,不以三隅反,则不复也

欠拟合与过拟合:回归问题

image-20241204145422012

容量控制准则(复杂度控制准则)

瓦普尼克(Vapnik,生于1958年),前苏联、俄罗斯统计学家、致学家。他是统计学习理论的主要创建人之一。

image-20241204145545860

学习准则:
基于数据来选择智能函数最佳参数的原则
√机器学习依赖于实例数据来获取知识。
√经验风险最小化学习准则:选择最拟合于学习数据的函数参数。
√衡量学习效果的指标是泛化性。
√容量控制学习准则:经验风险最小化学习准则+容量控制

对没见过的预测好才叫学的好模型!!!

如何求解最佳参数-数学上最优化问题

image-20241204145748472

如何根据目标函数自动求解出最佳参数
根据目标函数求解最佳参数属于数学上的最优化问题
最优化问题的求解方法有
·求导法 ·迭代法 ·
一些启发式暴力搜索算法,如遗传算法、模拟退火等。

机器学习的推理方式

威廉·罗素(WilliamRussell,1872年-1970年)英国哲学家、数学家、分析哲学的主要创始人有哲学问题》《心的分析》物的分析》等。

罗素的小鸡-

故事大致是这么说的,有一只叫罗素的火鸡善于归纳推理,被带到了火鸡农场。第一天早上,它发现喂食时间是在上午九点。不过,作为一个严肃的归纳主义者,它没有急着下结论,而是继续观察:周一或周三、周五或周末,温暖或者寒冷的日子,下雨或者干燥的日子。一天天,它把自己观察结果记在心里。最后,直到收集了足够的观察结果,满足了自己的归纳主义习惯,它公布了归纳推理的结论——"火鸡的开饭时间,是每天上午九点"。

可惜第二天是圣诞节,事实证明了它这个结论是完全错误的:因为到了那天的上午九点,它不但没有被喂食,反而被宰掉、烤熟,最后做为圣诞大餐的主角,被端上了人类的餐桌。

这个故事也许可以说明,即使根据真实前提的归纳,得到的推理也未必全都正确的,还可能是灾难性的错误。因此这个问题,被当年的哲学家罗素称为"哲学的核心问题"之一。眼下,几乎所有主流人工智能,都是建立在归纳推理之上,它们全靠海量大数据的不断"喂养",

总结: 1.归纳推理是人类认识客观世界必不可少的手段

2.挑战了归纳推理的可靠性。

机器学习的推理方式 机器学习系统包括两个过程:归纳推理(基于数据)与演绎推理

机器学习是更可靠的归纳推理, 机器学习建立在统计学基础之上:独立同分布

从数据获得知识的方式属于归纳推理

唯物主义:感觉先于认识
机器学习:数据则是知识的源泉

基于智能函数进行分类预测属于演绎推理
人类标准:实践是检验真理的唯一标准
机器学习:对于未见过的样本,预测的准确性越高,说明“泛化性”越好

大模型时代

image-20241204152204501

  1. 传统机器学习一个任务一个模型,现在机器学习不是针对一个,而是一块训练

  2. 之前是需要有任务和实例构建训练数据,现在零样本学习

  3. 目前推理能力还是不够强大的

大模型的涌现能力

Transformer

自注意力(Self-Attention)机制 多头注意力(Multi-Head Attention) 前馈网络(Feed Forward Network) 位置编码(Positional Encoding)

现在就是Transformer架构堆叠很多数据

image-20241204152822699

预训练-企业工程

预训练方法

用旁边的词预测其他的词->概率法

所谓语言模型,就是建立上下文和词之间的关联

由识别标注数据变成不需要任务关联,然后编码

image-20241204153408315

微调与迁移学习:

面向下游任务的微调方法

提示工程与模板设计

参数高效微调技术

训练优化技巧: (节省电量 一次训练相当于一个小镇电量)

混合精度训练

稀疏注意力机制

数据并行与模型并行

预训练-全学 上大学

微调-上完大学指点一下 做任务;有的不需要微调就能干

目前刷论文都是国外领域发起的课题

目前计算瓶颈: 训练成本和时间训练量

模型的可解释性与可控性-高校

探究模型决策的内在机制 引入外部知识增强可解释性 可控生成与属性控制

企业和高校合作定义一些问题 然后落地

安全与伦理问题

隐私数据的保护 模型与数据的版权问题 应对有害、虚假内容 潜在的偏见问题

大模型的强大应用

提示工程 生成单词卡片 公文笔杆子 等

排名CSRankings: Computer Science Rankings

北邮访问网站:pris-nlp.github.io/

访问网站: www.pris.net.cn/introductio… eiran

image-20241204155525181

AI做奥利匹克数据题

image-20241204160329979

人脸通才模型

网络结构

模型训练的结果如何衡量(博士开题之一): 进化到什么程度叫训练好 未来所有可能的任务都训练好

目前高校被国外比如openai课题牵动围绕发论文 希望内部定义一些问题产出论文发