首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
月来客栈
掘友等级
公众号:月来客栈 www.ylkz.life
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 5
沸点 1
赞
6
返回
|
搜索文章
最新
热门
This post is all you need(层层剥开Transformer)
各位朋友大家好,欢迎来到月来客栈。今天要和大家介绍的一篇论文是谷歌2017年所发表的一篇论文,名字叫做”Attention is all you need“[1]。 以下为全文部分内容,可在网盘下载全
This post is all you need(①多头注意力机制原理)
1 引言 各位朋友大家好,欢迎来到月来客栈。今天要和大家介绍的一篇论文是谷歌2017年所发表的一篇论文,名字叫做”Attention is all you need“[1]。当然,网上已经有了大量的关
多标签分类中的损失函数与评价指标
1 引言 各位朋友大家好,欢迎来到月来客栈。在前面的一篇文章[1]中笔者介绍了在单标签分类问题中模型损失的度量方法,即交叉熵损失函数。同时也介绍了多分类任务中常见的评价指标及其实现方法[2]。在接下来
模型的改善与泛化(手写体识别)
经过前面五篇文章的介绍,我们对模型的改善与泛化算了有了一定的认识与了解。下面笔者就通过一个实际的手写体分类任务来做一个示范,介绍一下常见的操作流程。并同时顺便介绍一下sklearn和matplotlib中常见方法的使用。 对于第4-5行代码,如果是sklearn中内置的数据集都…
L2正则化为什么能够使得模型更简单?全是因为
从上一篇文章的介绍可以知道,模型产生过拟合的现象表现为:在训练集上误差较小,而在测试集上误差较大。并且笔者还说到,之所以产生过拟合现象是由于训练数据中存在一定的噪音,而我们为了尽可能的做到拟合每一个样本点(包括噪音),往往就会使用复杂的模型。最终使得训练出来的模型很大程度上受到…
RNN和LSTM中batchsize和timestep的区别是什么?
首先需要明确的概念是:batchsize指的是一次喂入网络的样本数,属于样本数量上的概念;而timestep指的是每个样本内包含有多少个时刻(步长),属于每个样本内部的概念。既然题主提出了这样的疑问,说明对于LSTM的细节之处尚有困惑之处,因此下面先大致说一下一个RNN和LST…
模型的改善与泛化(过拟合)
在上一篇文章中,我们介绍了为什么要对特征维度进行标准化,不标准化会带来什么样的后果,以及一种常见的标准化方法;同时我们还从另外一个角度(特征映射)介绍了如何将原始的低纬特征通过多项式映射到高维特征,以此来解决分线性的拟合问题。今天这篇文章笔者就接着往下继续介绍其它的模型改善的方…
模型的改善与泛化(梯度与等高线)
在上一篇文章中,笔者介绍了什么是等高线,并且还同时直接给出了梯度的垂直于等高线的结论,但是并没有介绍为什么。因此本篇文章就来大致介绍一下梯度为什么会垂直于等高线。 设为平面上任意一曲线,又由于曲线的法向量为。故,令,立即有曲线的法向量为。可以发现,曲线也就是的法向量正好就是曲线…
模型改善与泛化(标准化与特征映射)
经过前面两讲的内容,我们完成了对线性回归(Linear Regression)和逻辑回归(Logistics Regression)核心内容的学习,但是一些涉及到模型改善(Optimization)与泛化(Generalization)的方式并没有进行介绍。第三讲,笔者将以线性…
逻辑回归(目标函数推导)
前面几篇文章笔者详细的介绍了什么是逻辑回归、如何进行多分类、以及分类任务对应的评价指标等,算是完成了前面第一个阶段的学习。但是到目前为止仍旧有一些问题没有解决,映射函数长什么样?逻辑回归的目标函数怎么来的?如何自己求解实现逻辑回归?下面我们就来一一回答这三个问题。在这三个问题解…
下一页
个人成就
文章被点赞
8
文章被阅读
19,972
掘力值
443
关注了
1
关注者
7
收藏集
0
关注标签
2
加入于
2020-01-02