首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
白话深度学习
陈壮实的搬砖日记
创建于2024-10-03
订阅专栏
使用大白话介绍各种深度学习模型
等 3 人订阅
共14篇文章
创建于2024-10-03
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
激活函数为何能增强神经网络的非线性表达能力?
神经网络的威力有多强?现在的大模型可以写诗作画、图像识别可以识人识猫,这背后都是神经网络的功劳。而激活函数在其中扮演着重要的角色,如果神经网络中没有“激活函数”,再深的网络其实也没啥用。本质上,它只是
白话推荐系统(二):一文看懂DCN(DeepCrossNet)
DCN(Deep & Cross Network,深度交叉网络)是一种用于点击率预估(CTR)的深度学习模型,由Google和斯坦福大学于2017年提出。它结合了显式特征交叉和深度神经网络的优势,能够
举例理解transformer中的位置编码
在Transformer模型中,位置编码(Positional Encoding)是一种非常重要的机制,用于给模型提供关于单词在序列中位置的信息。这是因为Transformer架构本身并不像循环神经网
一文看懂SE(Squeeze and Excitation)模块及代码实现
SE(Squeeze and Excitation)模块是一种用于增强卷积神经网络(CNNs)性能的架构单元,它通过显式建模通道间的相互依赖关系来自适应地重新校准通道特征响应。
一文读懂BatchNorm2d()函数的计算逻辑
机器学习中,进行模型训练之前,需对数据做归一化处理,使其分布一致。在深度神经网络训练过程中,通常一次训练是一个batch,而非全体数据。每个batch具有不同的分布产生了internal covari
一文看懂Self-Attention的计算过程
Self-Attention(内部注意力(Intra-Attention))是一种注意力机制,它允许模型在序列的不同部分之间分配不同的注意力权重,在现在的深度学习,本文将结合实例详解它的计算过程。
一文理解深度学习中的L1和L2正则化及作用
L1和L2正则化是机器学习中常用的技术,特别是在训练线性模型时,用于防止模型过拟合。这两种正则化方法通过在损失函数中添加一个惩罚项来实现,这个惩罚项就是模型权重的函数。 1. L1和L2正则化 这篇讲
常用激活函数:Sigmoid、tanh、ReLU等
激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。在神经元中,输入的input经过一系列加权求和后作用于另一个函数,这个函数就是这里
白话推荐系统(一): 一文看懂Wide & Deep深度推荐开山之作
Wide & Deep是由谷歌APP Stroe团队在2016年提出的关于CTR预测的经典模型,该模型实现简单,效果却非常好,因而在各大公司中得到了广泛应用,是将深度学习引入推荐系统
交叉熵损失损失:一文看懂交叉熵损失的底层数学原理
交叉熵损失(Cross-Entropy Loss)是机器学习和深度学习中常用的一种损失函数,主要用于分类任务。它通过衡量模型预测的概率分布与实际类别分布之间的差异,来评估模型性能。交叉熵损失通常用于分
白话SwinTransformer: 一文基本看懂SwinTransformer
Swin-Transformer得益于其窗口注意力和偏移窗口注意力机制,平衡了感受野和计算效率,逐渐替代Vit成为了很多视觉网络的Backbone。下面将尽可能的清晰地解释其各个模块! 1. Swin
白话Transformer:一文看懂Transformer经典模型
Tranformer现如今无论是在CV还是NLP,甚至现在非常或的LLM领域都非常重要!该架构是谷歌在2017年《Attention is all you need》中提出的,下面将分析
白话扩散模型系列一:一文基本搞懂扩散模型DDIM
DDPM有一个很大的缺点就是其本身是一个马尔科夫链的过程,推理速度太慢,如果前向加噪过程是1000步,那么去噪过程就需要使用Unet生成噪声,然后去噪,这样进行1000步。而DDIM改进来反响去燥过程
白话扩散模型系列一:一文搞懂扩散模型DDPM
扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)是一类生成模型,近年来在图像生成、合成等任务中引起了广泛关注。DDPM 的主要思想是通过逐步