很多地方的推导太长了。
首先:
写成 MLE,比 KL 散度少一个常数,形式更简单。没必要时刻写出 KL 散度。
可以 1 步推导出 VAE。
这个是 MLE:
显然等价于:
恭喜,推导出了 VAE。
加 10 秒钟,把它变成更常见的样子。
展开:
改变符号,显然等价于:
再加上先验:
还有假设
是固定 stdev 的 Gaussian 以造出 MSE。
就和实际用的一模一样了。
我在另一篇文章,简单实验了
有可变 stdev 的情况:

很多地方的推导太长了。
首先:
写成 MLE,比 KL 散度少一个常数,形式更简单。没必要时刻写出 KL 散度。
可以 1 步推导出 VAE。
这个是 MLE:
显然等价于:
恭喜,推导出了 VAE。
加 10 秒钟,把它变成更常见的样子。
展开:
改变符号,显然等价于:
再加上先验:
还有假设
是固定 stdev 的 Gaussian 以造出 MSE。
就和实际用的一模一样了。
我在另一篇文章,简单实验了
有可变 stdev 的情况:
