首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Tw_xxxx
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
Tw_xxxx
3月前
关注
主流大模型微调开源框架概述
Transformers (Hugging Face) Transformers是由Hugging Face开发的最广泛使用的NLP库之一,提供了预训练模型的访问和微调功能...
0
评论
分享
Tw_xxxx
5月前
关注
SQL
相关知识 left join、right join和inner join的区别 left join(左连接):左连接返回左表中的所有记录,以及右表中与左表匹配的记录。如果右...
0
评论
分享
Tw_xxxx
5月前
关注
Pandas
定义 Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据) Series 是一种类似于一维数组的对象,它由一组数据(各种 Numpy...
0
评论
分享
Tw_xxxx
1年前
关注
Prompt Engineering
概述 提示工程(Prompt Engineering),是指如何针对当前任务生成prompt模板,在不更新模型权重的情况下与 LLM 交互引导其行为以获得所需结果。在提示工...
0
评论
分享
Tw_xxxx
1年前
关注
PaLM
重要结论 模型规模带来的模型能力的提升还远没有达到上限; 通过思维链(chain of thought prompting)方式让模型生成自然语言来解释其预测的方式对模型是...
0
评论
分享
Tw_xxxx
1年前
关注
LLaMA系列
LLaMA 论文链接 核心思想 大部分用户没有训练LLM的资源,更多的是拿着训好的LLM来推理。首选的模型应该不是训练最快的,而应该是推理最快的小LLM。 摘要 LLaMA...
0
评论
分享
Tw_xxxx
1年前
关注
GPT系列
参数量对比 模型对比 GPT-1 论文链接 核心思路: 在大量无标记数据集上训练 Transformer 的 Decoders 来做 NLG (语言生成),得到优秀的生成模...
0
评论
分享
Tw_xxxx
1年前
关注
GLM系列
背景 GLM的核心是:自回归空白填充(Autoregressive Blank Infilling) Prefix LM 架构 技术原理 GLM 在只使用 Transfor...
0
评论
分享
Tw_xxxx
1年前
关注
CodeGeeX
概述 CodeGeeX,是一个具有130亿个参数的多语言模型,用于代码生成,在23种编程语言的8500亿个token上进行了预训练,具有8K的上下文窗口 CodeGeeX的...
0
评论
分享
Tw_xxxx
1年前
关注
BLOOM
重要结论 在训练语料中包含代码可以提高模型处理自然语言任务的准确率。 侧重训练一个规模和 GPT-3 一样的多语言语言模型 使用了ALiBi Positional Embe...
0
评论
分享
Tw_xxxx
1年前
关注
知识图谱结合大模型
研究动机 大语言模型是黑盒模型,通常无法捕获和访问事实知识。相比之下,知识图谱(KG)、维基百科和花谱等都是结构化知识模型,显式存储丰富的事实知识。知识图谱可以通过提供外部...
0
评论
分享
Tw_xxxx
1年前
关注
长文本解决方法
论文链接 概述 尽管LLMs在推动人工智能方向上取得了显著成就,但在处理长文本方面仍面临资源限制和效率问题。 提出了一系列针对长文本优化的Transformer架构改进方法...
0
评论
分享
Tw_xxxx
1年前
关注
预训练模型
概述 在 Transformer 作为特征抽取器基础上,选定合适的模型结构,通过某种自监督学习任务,逼迫 Transformer 从大量无标注的自由文本中学习语言知识。这些...
0
评论
分享
Tw_xxxx
1年前
关注
混合专家(Mixture of Experts)
概述 MoE 已经变得十分普遍,新的大型语言模型:GPT-4、Gemini 1.5、Mixtral 8x7B 或 Jamba 都是 MoE 模型。 知识的稀疏性 MoE(M...
0
评论
分享
Tw_xxxx
1年前
关注
大语言模型的涌现能力
什么是大模型的涌现能力 第一类任务表现出伸缩法则:这类任务一般是知识密集型任务。随着模型规模的不断增长,任务效果也持续增长,说明这类任务对大模型中知识蕴涵的数量要求较高。 ...
0
评论
分享
Tw_xxxx
1年前
关注
大模型训练优化
并行化 数据并行(Data Parallelism) 在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于沿批次(Batch)维度对训练过程进行并...
0
评论
分享
Tw_xxxx
1年前
关注
大模型训练流程
参考链接 预训练阶段(Pretraining Stage) Pretraining 的思路很简单,就是输入一堆文本,让模型做 Next Token Prediction 的...
0
评论
分享
Tw_xxxx
1年前
关注
大模型显存分析
Collective Operations Broadcast:将一个节点上的数据广播到集群内所有的节点 Scatter: 将数据的进行切片再分发给集群内所有的节点 Gat...
0
评论
分享
Tw_xxxx
1年前
关注
大模型微调
Prefix Tuning 人工设计的 prompt 中那些对应自然语言的真实 token 要经过嵌入层,被向量化得到的 token 是离散的,得到的结果大概率是次优的。相...
0
评论
分享
Tw_xxxx
1年前
关注
大模型外推技术
什么是大模型外推性 外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了 512 个 token 的文本,那么...
0
评论
分享
下一页
个人成就
文章被点赞
2
文章被阅读
12,722
掘力值
103
关注了
1
关注者
4
收藏集
0
关注标签
0
加入于
2024-02-13