首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
coting
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 4
沸点 0
赞
4
返回
|
搜索文章
最新
热门
Transformer注意力机制——MHA&MQA&GQA
随着上下文长度的不断增大,KV-Cache需要的显存也就越来越大,最后直接爆炸。所以,不同的研究就出现来去解决这个问题。
一文搞懂KV-Cache
前几天面试的时候,面试官问我知道什么是KV-Cache吗?我愣在了原地,所以回来赶紧搞懂,把我所理解的和大家一起学习一下。也作为Transformer系列的第五篇。
从0手撸Transformer
本篇文章是Transformer系列的最后一篇,我们知道原理仅仅是开始,知道如何实现并知道如何应用才是目的,本篇文章我们就从0到1实现Transformer,实现中我们要使用pytorch框架,所以需
Transformer——FeedForward模块在干什么?
本文章是该系列的第三篇文章,上一篇文章我们讲解了Attention注意力模块,Transformer中在注意力模块之后紧跟着的是一个FeedForward前馈神经网络,实际上是一个MLP,他起到了一个
Transformer——Attention怎么实现集中注意力
本文章是该系列的第二篇文章,在介绍Attention Block之前,我先介绍一下点积在衡量向量间的对齐度的作用和softma
一览Transformer整体架构
研究人工智能的人应该都知道Transformer,Transformer可以说是人工智能的基石,无论是自然语言处理经典模型Bert,还是现在火的一塌糊涂的GPT,他们的核心正是Transformer,
从0开始手撸神经网络
本篇文章是该系列的第四篇,也是最后一篇。在了解了什么是神经网络并且知道了神经网络的底层原理之后,我们可以通过实际动手来更加深入的理解神经网络,同时提升自己的编码能力。
一文搞懂什么是反向传播
本篇文章是该系列的第三篇,我们一起来学习一下神经网络学习背后的核心算法——反向传播算法,即使现在很多人都在做深度学习,但是80%的人都说不清网络的参数到底是怎么更新的。
一文读懂什么是神经网络
本文将以手写数字识别为例,介绍最简单也是最经典的神经网络模型 —— 多层感知器(MLP, Multi-Layer Perceptron)。理解了 MLP,我们才能更好地理解后续更强大的现代神经网络。
什么是梯度下降?为什么梯度下降能优化模型?
也许你已经听过“神经网络”这个词无数次,它是深度学习的基石,是 ChatGPT、图像识别、自动驾驶背后的关键技术。但你是否真正理解过,神经网络到底是怎么“看懂”图像、听懂语言,甚至学会写代码的?
下一页
个人成就
文章被点赞
3
文章被阅读
564
掘力值
223
关注了
0
关注者
2
收藏集
0
关注标签
23
加入于
2025-05-27