首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
李rumorr
掘友等级
NLP算法工程师
搞AI的朋克女孩
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
【NLP】ALBERT粗读
前几天看没事看了眼GLUE榜单就发现了ALBERT这个模型,去arxiv搜了下没搜到,还在想什么时候放出来,没想到在Openreview上。。 Google一出手就是不一样,不再是BERT+的模式,而是做了个大改动。 RACE可能没找对,没看到。 1. 模型简介 ALBERT主…
【DL】神经网络混合精度训练
之前介绍过了神经网络分布式训练,没怎么研究混合精度,以为就是都转成FP16就好了,最近才发现还是有些东西的,所以看了下百度和英伟达合作的MIXED PRECISION TRAINING,把细节记下来。 1. 混合精度训练 混合精度训练是在尽可能减少精度损失的情况下利用半精度浮点…
CUDA编程从放弃到入门
最近看fastertransformer源码,接触了很多底层到东西,cuda源码各种看不懂,就去学cuda,学了一会儿觉得就想放弃,结果翻回去看源码还是不懂,反复几次,最后干脆拿出一上午静静地把官方文档啃了啃才算入门。所以写这篇文章帮助同样想要放弃的同学入门一下。 网上关于cu…
【NLP】Fastertransformer源码解读
最近拜读了NVIDIA前阵子开源的fastertransformer,对CUDA编程不是很熟悉,但总算是啃下来一些,带大家读一下硬核源码。 1. 简介 2. 硬核源码解读 首先简略说一下第一点优化。Kernel在tensorflow里的概念是operation的计算实现,在cu…
【DL】浅谈模型Inference优化
最近又被一周一更的flag打脸,一是拉来了外援助阵专栏(以后会越来越多的!),二是自己想探索新的故事线(比如NLP+CV的任务),三是工作太忙(懒)。 1. 简介 重写Kernel(GPU):使用GPU计算时,每次运算(比如TF中的operation)都要经过几个流程:CPU在…
【NLP】基础模型之词向量
越来越觉得基础太重要了,要成为一个合格的算法工程师而不是调包侠,一定要知道各个基础模型的HOW&WHY,毕竟那些模型都是当年的SOTA,他们的思想也对之后的NLP模型影响很大。最近找到了一个还不错的nlp-tutorial,准备抽时间过一遍基础模型,模型的大致思想以及数学公式可…
【DL】模型蒸馏Distillation
过去一直follow着transformer系列模型的进展,从BERT到GPT2再到XLNet。然而随着模型体积增大,线上性能也越来越差,所以决定开一条新线,开始follow模型压缩之模型蒸馏的故事线。 Hinton在NIPS2014提出了知识蒸馏(Knowledge Dist…
XLNet源码一起读
1. 概述 2. 精读 target_mapping:因为理论上把token都permute了,所以可能先预测4再预测2,所以在预测i=0(第一个4)时要把实际的位置4给mask掉。这里作者说“in batch k”感觉有些不对,这个应该只针对当前的batch,k应该表示的是b…
【NLP】XLNet详解
1. 背景 2018年10月的时候,谷歌放出了称霸GLUE榜单的BERT模型,当时BERT最大的创新就是提出了Masked Language Model作为预训练任务,解决了GPT不能双向编码、ELMo不能深度双向编码的问题。之后从那天起,很多任务都不再需要复杂的网络结构,也不…
神经网络分布式训练
研究了半天分布式,简要总结出来分享一下,具体细节请看下面的参考资料。主要的参考资料是: 1. 分布式训练策略 模型并行:用于模型过大的情况,需要把模型的不同层放在不同节点orGPU上,计算效率不高,不常用。 数据并行:把数据分成多份,每份数据单独进行前向计算和梯度更新,效率高,…
下一页
个人成就
文章被点赞
60
文章被阅读
64,981
掘力值
1,271
关注了
0
关注者
1,431
收藏集
0
关注标签
0
加入于
2018-11-12