首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
从流域到海域
掘友等级
csdn同步更新地址:https://blog.csdn.net/Solo95
获得徽章 5
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
Rerank进一步提升RAG效果
介绍了 RAG(Retrieval Augmented Generation,检索增强生成 with Rerank,并详细讲述了 Rerank 的必要性以及二阶段检索的流程。
最强英文开源模型Llama2架构与技术细节探秘
Meta AI于2023年7月19日宣布开源LLaMA模型的二代版本Llama2,并在原来基础上允许免费用于研究和商用。作为LLaMA的延续和升级,Llama2的训练数据扩充了40%,达到2万亿token,并且可处理的上下文增倍,达到4096个token。整体finetuning...
NEFTune: 通过简单的噪声提升指令精调效果
NEFTune方法的原理仅使用一句话就可以描述清楚:在finetune过程的词向量中引入一些均匀分布的噪声即可明显地提升模型的表现
最强英文开源模型LLaMA架构探秘,从原理到源码
LLaMA架构,三个关键点及对应原理,一些实现源码 `LLaMA`是一个基于transformer架构的大语言模型,同Google的PaLM一样,针对原始的transformer架构进行了一些“**小
四两拨千斤,训练大模型的PEFT方法
自然语言处理进入大语言模型(Large Language Model, LLM)时代之后,模型的参数量级越来越庞大,以稍早之前的GPT-3为例,它有175B即1亿7千5百万参数,而ChatGPT及后续模型则更大。一方面大语言模型解决自然语言处理任务所需的涌现能力确实需要如此量级的...
Attention基本公式及其变种
Attention Mechanism 机制基本公式 address memory (score function) $$e_{ij}=f(q_i, p_j)$$ normalize (aligmen
nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)
本文以QA形式总结对比了nlp中的预训练语言模型,主要包括3大方面、涉及到的模型有: 单向特征表示的自回归预训练语言模型,统称为单向模型: ELMO/ULMFiT/SiATL/GPT1.0/GPT2.
Self Attention 自注意力机制
假定输入为Q(Query), Memory中以键值对(K,V)形式存储上下文。那么注意力机制其实是Query到一系列键值对(Key, Value)上的映射函数。
LoRA: 大模型快速训练的秘诀
LoRA LoRA的提出在上述PEFT方法之后,来自微软的研究者认为,现有的Adapter Tuning和Prefix Tuning这两种方法均有缺点: Adapter Layers Introduc
大模型高效训练基础知识:梯度累积(Gradient Accumulationn)
梯度累积 梯度累积(Gradient Accumulation)的基本思想是将一次性的整批参数更新的梯度计算变为以一小步一小步的方式进行(如下图),具体而言该方法以小批次的方式进行模型前向传播和反向传
下一页
个人成就
文章被点赞
21
文章被阅读
14,932
掘力值
324
关注了
4
关注者
7
收藏集
0
关注标签
14
加入于
2020-12-03