zh.d2l.ai

线性回归、正态分布、

zh.d2l.ai subsec-normal-distribution-and-squared-loss

在这里插入图片描述 (图上的似然应该就只是概率而已)

x不是随机变量, w、b都不是随机变量， $\epsilon$ 是随机变量，所以y也是随机变量注意如果画y大约是: 横坐标x 纵坐标y， $w^Tx+b$ 是一条直线，在此直线的每个点是一个正太分布 $\epsilon$ 的钟形最高点 (该正太分布是与y轴平行的)

求解优化步骤:

模型 $y=w^Tx+b+\epsilon$ 认为y是随机变量(认为y是概率分布)，即给定任意一y 该分布能给出该y值的概率
以该模型为前提，算出数据集中每个真实<x,y> 的y所得到的概率,
整个数据集的y概率取得最大值时的w、b即是模型的解

上文中还描述了以下两种方式是等价的

随机变量y的概率分布 $y=w^Tx+b+\epsilon$ 、 $\epsilon ~ \Nu(0,\sigma)$ , 最大化整个数据集的y概率(最大化似然)
线性回归模型 $y=w^Tx+b$ , 最小化均方误差 $\Sigma((y- ý)^2)$

...

判别模型和生成模型比较 (Discriminative vs Generative )

判别模型表达的是左图中的分界线，

生成模型表达的是蓝色区域、红色区域（比如用多个高斯分布组合出右图：蓝色高概率区域、红色高概率区域）

所以生成模型能生成样本点，而判别模型不能生成样本点。参考a 参考b

李宏毅笔记中比较生成和判别

析取、合取

参考a

合取 conjunction
析取 disjunction

pytorch 概率图 mnist例子

pytorch 概率图 mnist例子

读书笔记: 概率图模型：原理与技术

《智能系统的概率推理》（ Probabilistic Reasoning in Intelligent Systems) (Pearl 1988）

条件概率的作用（条件概率的用法、条件概率的动机）

在这里插入图片描述

猜测: 所以 P(α) 叫先验(先前已经存在的经验α 比如来自历史数据),

而 P(β|α) 叫做后验(已知α后变更了的β)

条件分布与边缘分布通常不同

在这里插入图片描述

P(α|β)...了解事件β为真改变了α的概率

在这里插入图片描述

随机变量独立性的陈述时关于随机变量所有可能值的一个通用的量化

在这里插入图片描述

..

在这里插入图片描述

频率派比较 bayes派

统计学里频率学派(Frequentist)与贝叶斯(Bayesian)学派的区别和在机器学习中的应用

频率学派还是贝叶斯学派？聊一聊机器学习中的MLE和MAP

频率派vs贝叶斯派

machine learning study

google search key word: machine learning study path artemis15 Machine-Learning-Study-Path

josephmisiti/awesome-machine-learning

microsoft/ML-For-Beginners

百面机器学习.pdf usiege/Keep-Deep-Learning

?yuanxiaosc/Machine_Learning_bookshelf?

fchollet/deep-learning-with-python-notebooks

?ageron/handson-ml2?

?yuanxiaosc/Machine_Learning_bookshelf?

深度学习系统化学习

线性回归、正态分布、

...

判别模型 和 生成模型 比较 (Discriminative vs Generative )

析取 、合取

pytorch 概率图 mnist例子

读书笔记: 概率图模型：原理与技术

条件概率的作用 （条件概率的用法、条件概率的动机）

条件分布与边缘分布 通常 不同

P(α|β)...了解事件β为真改变了α的概率

随机变量独立性的陈述时关于随机变量所有可能值的一个通用的量化

..

频率派 比较 bayes派

machine learning study

判别模型和生成模型比较 (Discriminative vs Generative )

析取、合取

条件概率的作用（条件概率的用法、条件概率的动机）

条件分布与边缘分布通常不同

频率派比较 bayes派