机器学习-从模式识别到复杂推理从模式识别到复杂推理导学通识课程 b站背景 1956 达克茅斯会议; 1997 深蓝

导学

通识课程 b站【合集·AI在大前-哔哩哔哩】 b23.tv/fsPXwku

背景 1956 达克茅斯会议; 1997 深蓝战胜人类国际象棋大师

学习人工智能要从机器学习开始

一机器解决知识的问题,二机器学习解决了知识自动获取的能力

机器实现自动化, 机器学习实现智能化

机器学习

机器学习的概念和三大支柱

学校里不擅长搞算力强大的算力是基础

数据是知识的来源

机器学习方法=模式形式+学习准则+优化算法机器学习任务的类型

模型形式: 将学习表述成数学问题，为利用计算机解决奠定了基础
学习准则: 使得学习得到的知识能够更好地解决智能问题
优化算法: 利用数据来求解模型参数的计算方法

机器学习到底是什么? --机器学习的三大支柱计算机、数据、机器学习方法

--机器学习方法的三大要素机器学习方法=模式形式+学习准则+优化算法

--机器学习任务的类型监督学习、非监督学习、强化学习、前沿机器学习技术等

机器学习三要素:智能函数

智能函数是一种特殊的函数，其特点是带有可以调节的参数-调参

线性函数;sigmoid函数; 指数函数

人的大脑由神经元构成, 线性函数加权求和加非线性映射构成神经元

一个神经元就是一个基元模型,很多神经元构成大模型

机器学习三要素

人脑学习和机器学习共享相同的规律

机器学习获取知识的基本方法有两种:实例法(预训练采用)和解释法

超纲知识: 对于具有涌现能力的大模型也可以通过解释法进行学习，这种方法叫做提示学习

泛化能力:

怎样判断学习效果的好坏呢?-举一反三: 举一隅，不以三隅反，则不复也

欠拟合与过拟合:回归问题

容量控制准则(复杂度控制准则)

瓦普尼克(Vapnik，生于1958年)，前苏联、俄罗斯统计学家、致学家。他是统计学习理论的主要创建人之一。

学习准则:
基于数据来选择智能函数最佳参数的原则
√机器学习依赖于实例数据来获取知识。
√经验风险最小化学习准则:选择最拟合于学习数据的函数参数。
√衡量学习效果的指标是泛化性。
√容量控制学习准则:经验风险最小化学习准则+容量控制

对没见过的预测好才叫学的好模型!!!

如何求解最佳参数-数学上最优化问题

如何根据目标函数自动求解出最佳参数
根据目标函数求解最佳参数属于数学上的最优化问题
最优化问题的求解方法有
·求导法 ·迭代法 ·
一些启发式暴力搜索算法，如遗传算法、模拟退火等。

机器学习的推理方式

威廉·罗素(WilliamRussell，1872年-1970年)英国哲学家、数学家、分析哲学的主要创始人有哲学问题》《心的分析》物的分析》等。

罗素的小鸡-

故事大致是这么说的，有一只叫罗素的火鸡善于归纳推理，被带到了火鸡农场。第一天早上，它发现喂食时间是在上午九点。不过，作为一个严肃的归纳主义者，它没有急着下结论，而是继续观察：周一或周三、周五或周末，温暖或者寒冷的日子，下雨或者干燥的日子。一天天，它把自己观察结果记在心里。最后，直到收集了足够的观察结果，满足了自己的归纳主义习惯，它公布了归纳推理的结论——"火鸡的开饭时间，是每天上午九点"。

可惜第二天是圣诞节，事实证明了它这个结论是完全错误的：因为到了那天的上午九点，它不但没有被喂食，反而被宰掉、烤熟，最后做为圣诞大餐的主角，被端上了人类的餐桌。

这个故事也许可以说明，即使根据真实前提的归纳，得到的推理也未必全都正确的，还可能是灾难性的错误。因此这个问题，被当年的哲学家罗素称为"哲学的核心问题"之一。眼下，几乎所有主流人工智能，都是建立在归纳推理之上，它们全靠海量大数据的不断"喂养"，

总结: 1.归纳推理是人类认识客观世界必不可少的手段

2.挑战了归纳推理的可靠性。

机器学习的推理方式 机器学习系统包括两个过程:归纳推理(基于数据)与演绎推理

机器学习是更可靠的归纳推理, 机器学习建立在统计学基础之上:独立同分布

从数据获得知识的方式属于归纳推理

唯物主义:感觉先于认识
机器学习:数据则是知识的源泉

基于智能函数进行分类预测属于演绎推理
人类标准:实践是检验真理的唯一标准
机器学习:对于未见过的样本，预测的准确性越高，说明“泛化性”越好

大模型时代

传统机器学习一个任务一个模型,现在机器学习不是针对一个,而是一块训练
之前是需要有任务和实例构建训练数据,现在零样本学习
目前推理能力还是不够强大的

大模型的涌现能力

Transformer

自注意力(Self-Attention)机制 多头注意力(Multi-Head Attention) 前馈网络(Feed Forward Network) 位置编码(Positional Encoding)

现在就是Transformer架构堆叠很多数据

预训练-企业工程

预训练方法

用旁边的词预测其他的词->概率法

所谓语言模型,就是建立上下文和词之间的关联

由识别标注数据变成不需要任务关联,然后编码

微调与迁移学习:

面向下游任务的微调方法

提示工程与模板设计

参数高效微调技术

训练优化技巧: (节省电量一次训练相当于一个小镇电量)

混合精度训练

稀疏注意力机制

数据并行与模型并行

预训练-全学上大学

微调-上完大学指点一下做任务;有的不需要微调就能干

目前刷论文都是国外领域发起的课题

目前计算瓶颈: 训练成本和时间训练量

模型的可解释性与可控性-高校

探究模型决策的内在机制引入外部知识增强可解释性可控生成与属性控制

企业和高校合作定义一些问题然后落地

安全与伦理问题

隐私数据的保护模型与数据的版权问题应对有害、虚假内容潜在的偏见问题

大模型的强大应用

提示工程生成单词卡片公文笔杆子等

排名CSRankings: Computer Science Rankings

北邮访问网站:pris-nlp.github.io/

访问网站: www.pris.net.cn/introductio… eiran

AI做奥利匹克数据题

人脸通才模型

网络结构

模型训练的结果如何衡量(博士开题之一): 进化到什么程度叫训练好未来所有可能的任务都训练好

目前高校被国外比如openai课题牵动围绕发论文希望内部定义一些问题产出论文发