深度学习基础原理

深度学习基础原理

深度学习基础原理

主要介绍深度学习中的基础原理以及代码实战，是入门深度学习的不二之选

等 1 人订阅共8篇文章创建于2025-05-02

深度学习学习率优化方法——pytorch中各类warm up策略

warm-up具体原理以及为什么这么做在之前的博客有介绍，这里直接介绍如何直接使用pytorch中的warm-up策略，在pytorch中对于warm-up所有支持的方法都有描述

9月前
197
1
评论

深入探讨Attention变种与内存优化：从MHA到Flash/Page Attention

本文主要介绍常用的Attention操作（多头注意力等）以及在KV-cahce中如何节约内容的操作包括：flash-attention、vLLM等原理

10月前
785
2
评论

深度学习基础理论：常见评价指标以及Loss Function

本文盛入浅出的介绍常见的评价指标（准确率等计算方式）以及Loss function（交叉熵损失等）的基本原理以及计算方法

10月前
334
点赞
评论

深度学习基础理论：混合专家模型以及KV-cache基本原理

本文图文并茂的方式介绍深度学习中的混合专家模型以及KV-cache基本原理以及代码操作，让你快速了解其背后原理以及代码操作

10月前
172
点赞
评论

深度学习基础理论：混合精度训练以及gradient-checkpoint原理

本文图文并茂的方式主要介绍深度学习中的混合精度训练方式以及gradient-checkpoint的基本原理。

10月前
421
点赞
评论

CV中常用Backbone-2：ConvNeXt模型详解

这里介绍新的一个Backbone：ConvNeXt，均来自Meta的论文，卷积审计网络又一春？本论文证明Vit效果好并不是attention本身而是因为transform的超大感受野和各种trick

10月前
508
1
评论

CV中常用Backbone-1：Resnet/Unet/Vit系列/多模态系列等以及代码

本文主要介绍CV-Backbone：Resnet/Vit/MAE/Unet等网络结构原理以及其具体的代码。

10月前
180
点赞
评论

多模态系列-1：Qwen多模态系列论文

本文主要介绍多模态系列-1：Qwen多模态系列论文，并且对Qwen多模态的代码进行解析。将两个模型进行详细对比

10月前
257
点赞
评论