笔记点
第一部分
- 机器学习的三个核心概念:数据、模型、学习;
- 机器学习是数据驱动的,数据是核心;
数据处理的最终目标是提取模式
- hoffman等人在2010年做过机器学习自动查找大型文档语料库中的相关主题的探索;
- 数据如果改善了任务的表现,那么模型就是从数据中学习的;
- 目标是找到能够泛化到未见数据的好模型;
未见过数据不是从未见过的模式,或者域?
- 学习:通过优化模型参数来自动发现数据中模式和结构的方法;
- 理解机器学习背后的数学,可以认知当前方法的假设空间和局限性,帮助我们创建新的解决方案;
第二部分
- 机器学习算法包含预测系统的算法(模型的应用-类似『开车』),还包括调整模型内部参数的算法(模型的训练-类似『造车、修车』);
- 数据被转换为计算机能够处理的形式,称为**『向量』**;
- 向量的三种视角含义:向量是一个数字数组(计科),向量是有方向和大小的箭头(物理学),向量是服从加法和缩放的对象(数学);
- 名词:数据->向量;概率或优化的观点来选择合适的模型;
第三部分
- 读本书的路径:
自下而上:从基础开始(枯燥,缺少方向感);自上而下:目标导向,需求出发(空中楼阁,需要记住暂时不理解的术语)
- 所以,本书的安排:
第一部分,是自下而上,顺序阅读;(觉得枯燥可以去看第二部分) 第二部分,章节间没有严格顺序,不必顺序阅读; 2部分之间相互指引,将数学概念与机器学习算法关联
- 两种方式结合来读书,积累部分数学,再看看机器学习,搞不清楚再回来看数学,螺旋上升式学习;
关于数学(第一部分)
- 用向量表示数值数据,用矩阵表示这些数据的表格。对向量和矩阵的研究称为『线性代数』(第2章);
- 计算两个向量相似性和距离,是『解析几何』的核心(第3章);
- 矩阵和矩阵分解,在机器学习中非常有用,可以直观解释数据,提高学习效率(第4章);
- 数据是对某些真实潜在信号的噪声观测,我们希望能够量化「噪声」,同时还希望预测器(前文说的预测模型),能够度量不确定的程度(信心),属于概率论的范畴(第6章);
- 训练模型时,通常需要找到最大化某些性能指标的参数,优化技术经常用到「梯度」的概念,帮助寻找解决方案的方向(第5章 向量微积分);第7章使用梯度的概念进行优化,找到函数的最大值/最小值;
关于机器学习(第二部分,四大支柱)
- 第8章 数学方式解读了机器学习的三个组成部分(数据、模型和参数估计)
- 第9章 线性回归;通过最大似然估计、最大后验估计进行经典模型拟合(参数估计)和贝叶斯线性回归(对参数积分而不是优化);
- 第10章 用主成分分析来降维,为高纬数据找到紧凑的低维表示,从而使数学更容易被分析;与回归不同,降维只关注数据建模,不需要标签;
- 第11章 密度估计,找到描述给定数据集的概率分布,关注高斯混合模型,并讨论一种迭代方案找到模型的参数(与降维一样,没有标签),不寻求降维,但要寻找描述数据的密度模型;
- 第12章 分类,在支持向量机(svm)的背景下讨论,与第9章(回归)类似,有输入x和标签,需要注意——回归的标签是实值,分类的标签是整数。
关于练习
主要用纸笔完成,第二部分用jupyter notebook完成,用于探索机器学习算法的一些特性。
感谢剑桥大学出版社的支持,本书开源网址:mml-book.com